mgihe 图 灵 程 记 设 计 丛 书 PEARSON | 


Sedgewick 之 巨著 ， 与 高 德 纳 TAOCP 一 脉 相 承 
几 十 年 多 次 修订 ， 经 久 不 衰 的 畅销 书 
涵盖 所 有 程序 员 必 须 掌握 的 50 种 算法 


是 Algorithms Eon Ed 


(第 4 版 ) 


Robert Sedgewick 
[ 美 ] Kevin Wayne 著 


谢 路 云 译 


复 人 民 邮 电 出 版 社 


POSTS & TELECOM PRESS 


RB 


Robert Sedgewick 

斯 坦 福 大 学 博士 ， 导 师 为 Donald E. Knuth， 从 
1985 年 开始 一 直 担任 普林斯顿 大 学 计算 机 科学 系 
教授 ， 曾 任 该 系 主 任 ， 也 是 Adobe Systems 公 司 
董事 会 成 员 ， 曾 在 Xerox PARC、 国 防 分 析 研究 
所 ( Institute for Defense Analyses ) 和 法 国 国家 
信息 与 自动 化 研究 所 ( INRIA ) 从 事 研 究 工作 。 
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内 容 提 要 


本 书 作为 算法 领域 经 典 的 参考 书 ， 全 面 介绍 了 关于 算法 和 数据 结构 的 必 备 知识 ， 并 特别 针对 排序 、 
搜索 、 图 处 理 和 字符 串 处 理 进 行 了 论述 。 第 4 版 具体 给 出 了 每 位 程序 员 应 知 应 会 的 50 个 算法 ,提供 了 实 
际 代码 ， 而 且 这 些 Java 代码 实现 采用 了 模块 化 的 编程 风格 ,读者 可 以 方便 地 加 以 改造 。 配 套 网 站 提供 了 
本 书 内 容 的 摘要 及 更 多 的 代码 实现 、 测 试 数据 、 练 习 、 教 学 课件 等 资源 。 

本 书 适 合用 做 大 学 教材 或 从 业者 的 参考 书 。 
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译 者 厅 


在 计算 机 领域 ， 算 法 是 一 个 永恒 的 主题 。 即 使 仅 把 算法 入 门 方面 的 书 都 摆 出 来 ， 国 内 外 的 加 起 


来 怕 是 能 铺 满 整个 天 安 门 广场 。 在 这 些 书 中 ， 有 几 本 尤其 与 众 不 同 ， 本 书 就 是 其 中 之 一 。 


本 书 是 学 生 的 良 师 。 在 翻译 的 过 程 中 我 兽 无 数 次 感叹 : “要 是 当年 我 能 拥有 这 本 书 那 该 多 好 ! ” 


应 该 说 本 书 是 为 在 校 学 生 量 身 打 造 的 。 没 有 数学 基础 ? 没关系 ， 只 要 你 在 高 中 学 过 了 数学 归纳 法 ， 那 
么 书 中 95% 以 上 的 数学 内 容 你 都 可 以 看 得 懂 ， 更 何况 书 中 还 辅 以 大 量 图 例 。 没 学 过 编程 ”没关系 ， 第 
1 章 会 给 大 家 介绍 足够 多 的 Java 知 识 ， 即 使 你 不 是 计算 机 专业 的 学 生 ， 也 不 会 遇 到 困难 。 整 本 书 的 内 


容 编排 循序 渐进 ， 


1 易 到 难 ， 


前 


一 


后 呼应 ， 足 见 作 者 的 良 若 用 心 。 没 有 比 本 书 更 专业 的 算法 教科 书 了 。 


本 书 是 老师 的 好 帮手 。 如 果 老 师 们 还 只 能 照 本 宣 科 ， 只 能 停留 在 算法 本 身 一 二 三 四 的 阶段 ， 
那 就 已 经 大 大 落后 于 这 个 时 代 了 。 算 法 并 不 仅仅 是 计算 的 方法 ， 探 究 算 法 的 过 程 反 映 出 的 是 我 们 对 


这 个 世界 的 认 知 方法 : 是 ! 


任 唯 诺 诺 地 将 课本 当做 圣经 ， 还 是 通过 “实验 一 失败 一 再 实验 ”循环 的 锤 


炼 ? 数学 是 保证 ， 数 据 是 验证 。 本 书 通过 各 种 算法 ， 从 各 个 角度 ， 多 次 说 明了 这 个 道理 ， 这 也 正 是 
第 1 章 是 全 书 内 容 最 多 的 一 章 的 原因 。 希望 每 一 位 读者 都 不 要 错过 第 1 草 。 无 论 你 有 没有 编程 基础 ， 
都 会 从 中 得 到 有 益 的 启示 。 


本 书 是 程序 员 的 益友 。 在 工作 了 多 年 之 后 ,快速 排序 、 霍 夫 曼 编码 、KMP 等 曾经 熟悉 的 概念 在 你 
脑 中 是 不 是 已 经 凋零 成 了 一 个 个 没有 内 涵 的 名 词 ? 是 时 候 重 新 拾 起 它们 了 。 无 论 是 为 手头 的 工作 寻找 
线索 ,还 是 为 下 一 份 工作 努力 准备 ， 这 些 算法 基础 知识 都 是 你 不 能 跳 过 的 。 本 书 强 调 软件 工程 中 的 最 
佳 实践 ， 特 别 适 合 已 有 工作 经 验 的 程序 员 朋 友 。 所 有 的 算法 都 是 先 有 API， 再 有 实现 ， 之 后 是 证 明 ， 最 
后 是 数据 。 这 种 先 接口 后 实现 、 强 调 测试 的 做 法 ， 无 疑 是 在 工作 中 摸 疏 滚 打 多 年 的 程序 员 最 熟悉 的 。 


本 书 也 有 一 些 遗憾 ， 比 如 没有 介绍 动态 规划 这 样 重要 的 思想 。 但 是 瑕 不 掩 瑜 ， 它 仍然 是 最 好 的 
入 门 级 算法 书 。 我 强烈 地 希望 能 够 把 本 书 翻译 成 中 文 ， 但 同时 也 诚 悍 诚 妨 ， 如 履 薄 冰 ， 担 心 自己 的 
水 平 不 足以 准确 传达 原文 的 意思 。 翻 译 的 过 程 虽然 辛 苗 ,但 我 觉得 非常 值得 。 感 谢 人 民 邮 电 出 版 社 


图 灵 公司 给 了 我 这 个 机 会 ， 感 谢 编辑 和 审 稿 专家 的 细心 检查 。 同 时 感谢 我 的 麦子 朱 天 的 全 力 支 持 。 


译 者 水 平 有 限 ，bug 在 所 难免 ， 还 请 读者 批评 指正 。 


谢 路 云 
2012.9.17 


前 


本 书 力 图 研究 当今 最 重要 的 计算 机 算法 并 将 


ll 


些 最 基础 的 技能 传授 给 广大 求知 者 。 它 适合 用 做 


计算 机 科学 进 阶 教材 ， 面 向 已 经 熟悉 了 计算 机 系统 并 掌握 了 基本 编程 技能 的 学 生 。 本 书 也 可 用 于 自 
学 ， 或 是 作为 开发 人 员 的 参考 手册 ， 因 为 书 中 实现 了 许多 实用 算法 并 详尽 分 析 了 它们 的 性 能 特点 和 
用 途 。 这 本 书 取材 广泛 ， 很 适合 作为 该 领域 的 人 门 教材 。 


算法 和 数据 结构 的 学 习 是 所 有 计算 机 科学 教学 计划 的 基础 ， 但 它 并 不 只 是 对 程序 员 和 计算 机 
系 的 学 生 有 用 。 任 何 计算 机 使 用 者 都 希望 计算 机 能 运行 得 更 快 一 些 或 是 能 解决 更 大 规模 的 问题 。 本 


书 中 的 算法 代表 了 近 50 年 来 的 大 量 优秀 研究 成 果 ， 


是 人 们 工作 中 必 备 的 知识 。 从 物理 中 的 N 体 模拟 


问题 到 分 子 生物 学 中 的 基因 序列 问题 ， 我 们 描述 的 基本 方法 对 科学 研究 而 言 已 经 必 不 可 少 ; 从 建筑 
建 模 系统 到 模拟 飞行 顺 ， 这 些 算 法 已 经 成 为 工程 领域 极其 重要 的 工具 ; 从 数据 库 系 统 到 互联 网 搜索 
引 警 ， 算 法 已 成 为 现代 软件 系统 中 不 可 或 缺 的 一 部 分 。 这 仅 是 几 个 例子 而 已 ， 随 着 计算 机 应 用 领域 


的 不 断 扩 张 ， 这 些 基础 方法 的 影响 也 会 不 断 扩 大 。 


在 开始 学 习 这 些 基础 算法 之 前 ， 我 们 先 要 熟悉 全 书 中 都 将 会 用 到 的 栈 、 队 列 等 低级 抽象 的 数据 


类 型 。 然 后 依次 研究 排序 、 搜 索 、 图 和 字符 串 方 国 


ij 的 基础 算法 。 最 后 一 章 将 会 从 宏观 角度 总 结 全 书 


的 内 容 。 


独特 之 处 


本 书 致力 于 研究 有 实用 价值 的 算法 。 书 中 讲解 了 多 种 算法 和 数据 结构 ， 并 提供 了 大 量 相关 的 信 
息 ， 读 者 应 该 能 有 信心 在 各 种 计算 环境 下 实现 、 调 试 并 应 用 它们 。 本 书 的 特点 涉及 以 下 几 个 方面 。 


算法 ” 书 中 均 有 算法 的 完整 实现 ， 并 讨论 了 程序 在 多 个 样 例 上 的 运行 状况 。 书 中 的 代码 都 是 可 
以 运行 的 程序 而 非 伪 代码 ， 因 此 非常 便于 投入 使 用 。 书 中 程序 是 用 Java 语 言 编写 的 ,但 其 编程 风格 


方便 读者 使 用 其 他 现代 编程 语言 重用 其 中 的 大 部 分 代码 来 实现 相同 算法 。 


数据 类 型 ”我 们 在 数据 抽象 上 采用 了 现代 编程 风格 ， 将 数据 结构 和 算法 封装 在 了 一 起 。 


应 用 每 一 章 都 会 给 出 所 述 算法 起 到 关键 作用 的 应 用 场景 。 这 些 场景 多 种 多 样 ， 包 括 物 理 模 拟 


与 分 子 生 物 学 、 计 算 机 与 系统 工程 学 ， 以 及 我 们 熟悉 的 数据 压缩 和 网 络 搜 索 等 。 


学 术 性 ”我们 非常 重视 使 用 数学 模型 来 描述 算法 的 性 能 。 我 们 用 模型 预测 算法 的 性 能 ， 然 后 在 


真实 的 环境 中 运行 程序 来 验证 预测 。 


广度 本 书 讨 论 了 基本 的 抽象 数据 类 型 、 排 序 算法 、 搜 索 算法 、 图 及 字符 串 处 理 。 我 们 在 算法 


i 


的 讨论 中 研究 数据 结构 、 算 法 设计 范式 、 归 纳 法 和 解 题 模型 。 这 将 涵盖 20 世 纪 60 年 代 以 来 的 经 典 方 
法 以 及 近年 来 产生 的 新 方法 。 


我 们 的 主要 目标 是 将 今天 最 重要 的 实用 算法 介绍 给 尽 可 能 广泛 的 群体 。 这 些 算 法 一 般 都 十 分 巧 
妙 奇 特 ，20 行 左右 的 代码 就 足以 表达 。 它 们 展现 出 的 问题 解决 能 力 令 人 叹为观止 。 没 有 它们 ， 创 造 
计算 智能 、 解 决 科学 问题 、 开 发 商业 软件 都 是 不 可 能 的 。 


本 书 网 站 
本 书 的 一 个 亮点 是 它 的 配套 网 站 algs4.cs.princeton.edu。 这 一 网 站 面向 教师 、 学 生 和 专业 人 士 ， 
免费 提供 关于 算法 和 数据 结构 的 丰富 资料 。 


一 份 在 线 大 纲 ”包含 了 本 书 内 容 的 结构 并 提供 了 链接 ， 浏 览 起 来 十 分 方便 。 


全 部 实现 代码 ” 书 中 所 有 的 代码 均 可 以 在 这 里 找到 ， 且 其 形式 适合 用 于 程序 开发 。 此 外 ， 还 包 
括 算法 的 其 他 实现 ， 例 如 高 级 的 实现 、 书 中 提 及 的 改进 的 实现 、 部 分 习题 的 答案 以 及 多 个 应 用 场景 的 
客户 端 代码 。 我 们 的 重点 是 用 真实 的 应 用 环境 来 测试 算法 。 


习题 与 答案 ”网 站 还 提供 了 一 些 附 加 的 选择 题 ( 只 需要 一 次 单 击 便 可 获取 答案 ) 、 很 多 算法 应 
] 的 例子 、 编 程 练习 和 答案 以 及 一 些 有 挑战 性 的 难题 。 


动态 可 视 化 ” 书 是 死 的 , 但 网 站 是 活 的 ， 在 这 里 我 们 充分 利用 图 形 类 演示 了 算法 的 应 用 效果 。 


课程 资料 ”网 站 包含 和 本 书 及 网 上 内 容 对 应 的 一 整套 幻灯 片 ， 以 及 一 系列 编程 作业 、 核 对 表 、 
测试 数据 和 备课 手册 。 


相关 资料 链接 网 站 包含 大 量 的 链接 ， 提 供 算法 应 用 的 更 多 背景 知识 以 及 学 习 算 法 的 其 他 资源 。 


我 们 希望 这 个 站 点 和 本 书 互 为 补充 。 一 般 来 说 ， 建 议 读者 在 第 一 次 学 习 某 种 算法 或 是 希望 获得 


整体 概念 时 看 书 ， 并 把 网 站 作为 编程 时 的 参考 或 是 在 线 查找 更 多 信息 的 起 点 。 
作为 教材 


本 书 为 计算 机 科学 专业 进 阶 的 教材 ,涵盖 了 这 门 学 科 的 核心 内 容 ， 并 能 让 学 生 充分 锻炼 编程 、 
定量 推理 和 解决 问题 等 方面 的 能 力 。 一 般 来 说 ， 此 前 学 过 一 门 计算 机 方面 的 先导 课程 就 是 全 ， 只 要 
熟悉 一 门 现代 编程 语言 并 熟知 现代 计算 机 系统 ， 就 都 能 够 阅读 本 书 。 


昌 然 本 书 使 用 Java 实 现 算法 和 数据 结构 ， 但 其 代码 风格 使 得 熟悉 其 他 现代 编程 语言 的 人 也 能 
懂 。 我 们 充分 利用 了 Java 的 抽象 性 ( 包括 泛 型 ) ， 但 不 会 依赖 这 门 语言 的 独门 特性 。 


书 中 涉及 的 多 数 数学 知识 都 有 完整 的 讲解 ( 少数 会 有 延伸 阅读 ) ， 因 此 阅读 本 书 并 不 需要 准备 
太 多 数学 知识 ， 不 过 有 一 定 的 数学 基础 当然 更 好 。 应 用 场景 都 来 自 其 他 学 科 的 基础 内 容 ， 同 样 也 在 


书 中 有 完整 介绍 。 


本 书 涉及 的 内 容 是 任何 准备 主 修 计算 机 科学 、 电 气 工程 、 运 筹 学 等 专业 的 学 生 应 了 解 的 基础 知 
识 ， 并且 对 所 有 对 科学 、 数 学 或 工程 学 感 兴趣 的 学 生 也 十 分 有 价值 。 


VIll > 前 言 


这 本 书 意 在 接续 我 们 的 一 本 基础 教材 《Java 程 序 设 计 : 一 种 跨 学 科 的 方法 》， 那 本 书 对 计算 机 
领域 做 了 概括 性 介绍 。 这 两 本 书 合 起 来 可 用 做 两 到 三 个 学 期 的 计算 机 科学 入 门 课 程 教材 ， 为 所 有 学 
生 在 自然 科学 、 工 程 学 和 社会 科学 中 解决 计算 问题 提供 必 备 的 基础 知识 。 


本 书 大 部 分 内 容 来 自 Sedgewick 的 算法 系列 图 书 。 本 质 上 ， 本 书 和 该 系列 的 第 1 版 和 第 2 版 最 接 
近 ， 但 还 包含 了 作者 多 年 教学 和 学 习 的 经 验 。Sedgewick 的 《C 算 法 (第 3 版 )》、《C++ 算 法 (第 3 版 ) 》、 
《Java 算 法 〈 第 3 版 ) 》 更 适合 用 做 参考 书 或 是 高 级 课程 的 教材 ， 而 本 书 则 是 专门 为 大 学 一 、 二 年 级 
学 生 设 计 的 一 学 期 教材 ， 也 是 最 新 的 基础 人 门 书 或 从 业者 的 参考 书 。 
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表 1.2.14 一 种 能 够 累加 数据 的 抽象 数据 类 型 (可 视 版 本 ) 


API public class VisualAccumulator 


VisualAccumulator(int trials, double max) 


void addDataValue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 的 平均 值 
String toString() 对 象 的 字符 串 表 示 
典型 的 用 例 public class TestVisualAccumulator 
t 


public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
VisualAccumulator a = new VisualAccumulator(T, 1.0); 
om Cm t= Ot < 1 tet) 
a.addDataValue(StdRandom.random()); 
Stdout.println(Ca) ; 


上 
上 
数据 类 型 的 实现 public class VisualAccumulator 


private double total; 

private int N; 

public VisualAccumulator(int trials, double max) 

4 
StdDraw.setXscale(0, trials); 
StdDraw.setYscale(0, max); 
StdDraw.setPenRadius(.005); 

public void addDataValue(double val) 

{ 
N++; 
total += val; 
StdDraw.setPenColor (StdDraw.DARK_GRAY); 
StdDraw.point(N, val); 
StdDraw.setPenColor(StdDraw.RED); 
StdDraw.point(N, total/N); 

} 

public double meanQO) 

public String toString() 

// 和 Accumulator 相同 


左 起 第 N 个 红 点 的 高 度 为 最 
靠 左 的 N 个 灰 点 的 平均 高 度 


© ® 
要 . 8 ee。 
@@ 
® 
下 人、 灰 点 的 高 度 
。 即 数据 点 的 值 % java TestVisualAccumulator 2000 


Mean (2000 values): 0.509789 
图 1.2.8 ”可视化 累加 器 图 像 
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图 1.5.1 动态 连通 性 问题 


sthwnhlimlh 灰 


色 的 元 素 .aa 


shah, hho | [| [天 [上 | 
soho hor Shanhll 
TT | TT 
11]|| hore | |] 
村 11 dad | |] [| 
snl lod ee TI 
TT | [| 
sa rad ee | [|| 
| dh PILL) Mth 
1]|||| | > [| | | 
so 本色 的 元 素 .000s 
| || | Pm fac sa 
sa | ||| 
aa [| [| || 
sa [| | || 
sa [| [| | || 
插入 排序 选择 排序 


图 2.1.1 初级 排序 算法 的 可 视 轨迹 图 


quick-find 算 法 
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图 1.5.10 所 有 操作 的 总 成 本 
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图 2.3.3 使 用 了 三 取样 切 分 和 插入 排序 转换 的 快速 排序 


LU 
和 切 分 元 素 相 等 的 元 素 


TI 
pa 


图 2.3.5 三 向 切 分 的 快速 排序 的 可 视 轨迹 
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图 2.4.8” 堆 排序 的 可 视 轨 迹 图 2.5.2 ”用 切 分 找 出 中 位 数 
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图 3.2.14 一 棵 随机 构造 的 二 又 查找 树 中 由 根 到 达 任 意 结 点 的 平均 路 径 长 度 


图 3.3.12 ”由 一 条 红色 左 链接 相连 的 两 个 2- 结 点 表示 一 个 3- 结 点 


图 3.3.13 ”将 红 链 接 画 平时 ， 一 棵 红 黑 树 就 是 一 棵 2-3 树 


h.left.color 
的 值 是 RED 入 


hrioghtseolor 
的 值 是 BLACK 


private static final boolean RED = true; 
private static final boolean BLACK = false; 
半音 锌 private class Node 
红 黑 枫 
Key key; // 键 
Value val; // 相关 联 的 值 
Node left，right; // 左右 子 树 
int N; // 这 棵 子 树 中 的 结 点 总 数 


boolean color; // 由 其 父 结 点 指向 它 的 链接 的 颜色 


Node(Key key, Value val, int N, boolean color) 


this.key = key; 
this.val = val; 
this.N = N; 
this Color. = .COOr: 
} 
2-3 树 private boolean isRed(Node x) 
if (x == null) return false; 
return x.color == RED; 
图 3.3.14” 红 黑 树 和 2-3 树 的 一 一 对 应 关系 图 3.3.15” 红 黑 树 的 结 点 表示 
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h.right = x.left; h.left = x.right; 
x.left = h; Xighe Sh 
XCOloOr. = icolors Xx:color = h.color; 
h.color = RED; h.color = RED; 

x.N = h.N; x.N = h.N; 
h.N= 1 + size(h.left) h.N= 1 + size(h.left) 
+ Size(h.right); + Size(h.right); 


return x; return x; 
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图 3.3.18 ”向 单个 2- 结 点 中 插入 一 个 新 键 图 3.3.19 ”向 树 底部 的 2- 结 点 插入 一 个 新 键 
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图 4.3.10 Prim 算法 的 轨迹 
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4 2 0->2 0.26 
3 7->3 0.99 不 再 有 效 ! 
4 6->4 0.26 
5 4->5 O073 
6 3->6 1.51 
7 2->7 0.60 
edgeTo[] distTo[] 
0 
4 1 = 二 95 
5 2 0->2 0.26 
3 7->3 0.99 
4 6->4 0.26 
5 4->5 0.61 
6 3->6 1.51 
7 2->7 0.60 
edgeTo[] distTo[] 
0 
BS 1 5->1 0.93 
1 2 0->2 0.26 
3 7->3 0.99 
4 6->4 0.26 
3 4->5 0.61 
6 3->6 5 
7 2->7 0.60 


图 4.4.24 Bellman-Ford 算法 的 轨迹 (图 中 含有 人 负 权 重 边 ) 


tinyEWDnc. txt queue 


4->5 0.35 X edgeTo[] distTo[] 
3 0 
5->4 -0.66 到 1 
4->7 0.37 4 2 0->2 0.26 
5->7 0.28 7 3 
7->5 0.28 5 4 0->4 0.38 
5->1 0.32 5 4->5 0.73 
0->4 0.38 6 
0->2 0.26 7 27 0.60 
1 1 edgeTo[] distTo[] 
“ 0 
2->7 0.34 1 5->1 1.05 
6->2 0.40 5 元 ”0z>2 0.26 
3->6 0.52 3 3 7->3 0.99 
6->0 0.58 1 4 5->4 0.07 < 路径 0 一 4 一 5 一 4 
6->4 0.93 4 : 4->5 0.73 的 长 度 
天 ”27 0.60 


edgeTo[] distTo[] 


0 
3 1 5->1 1.05 
1 2 “0=>2 0.26 
4 3 7->3 0.99 
6 4 5->4 0.07 
py 5 4->5 0.42 
本 6 3-56 LT 

7 4->7 0.44 


4.4.25 Bellman-Ford 算法 的 轨迹 


1 ] i+] 0 1 2 3 4 5 6 7 8 910 

txt—>~>A B ACAD AB RALC 
0 2 2 A B R Ao<pat 
二 人 工 A B RA 红色 的 元 素 
了 3 A B RAAT 表示 匹配 失败 
3 0 3 A“B R A 0 
4 1 5 A 人 RA 
5 0 5 黑色 的 元 素 A B 人 

和 文本 匹配 
6 4 10 A B RA 
入 当 j 和 M 相 等 时 返回 人 
匹配 成 功 


5.3.2 ”暴力 子 字符 串 查 找 


图 5.4.1 模式 CCA*B|AC)D) 所 对 应 的 NFA 


A A A A B D 
0~v1—>2773>2—>3*2>3—>2—>34>5—8=9->10=>11 
/ 
匹配 转换 ， 继 续 扫 描 下 e- 转 换 : 无 匹配 扫描 了 所 有 文本 字符 
一 个 字符 并 改变 状态 时 的 状态 转换 并 达到 接受 状态 : NFA 
识别 了 文本 


图 5.4.2 ”找到 与 CCA*B | ACO)D)NFA 相 匹 配 的 模式 


il 第 1 章 基 


础 


本 书 的 目的 是 研究 多 种 重要 而 实用 的 算法 ， 即 适合 用 计算 机 实现 的 解决 问题 的 方法 。 和 算法 关 
系 最 紧密 的 是 数据 结构 ， 即 便于 算法 操作 的 组 织 数据 的 方法 。 本 章 介绍 的 就 是 学 习 算法 和 数据 结构 


所 需要 的 基本 工具 。 


首先 要 介绍 的 是 我 们 的 基础 编程 模型 。 本 书 中 的 程序 只 用 到 了 Java 语言 的 一 小 部 分 ， 以 及 我 们 
自己 编写 的 用 于 封装 输入 输出 以 及 统计 的 一 些 库 。1.1 节 总 结 了 相关 的 语法 、 语 言 特性 和 书 中 将 会 


用 到 的 库 。 


接 下 来 我 们 的 重点 是 数据 抽象 并 定义 抽象 数据 类 型 (ADT ) 以 进行 模块 化 编程 。 在 1.2 节 中 我 
们 介绍 了 用 Java 实现 抽象 数据 类 型 的 过 程 ， 包 括 定 义 它 的 应 用 程序 编程 接口 ( API ) 然后 通过 Java 


的 类 机 制 来 实现 它 以 供 各 种 用 例 使 用 。 


之 后 ， 作 为 重要 而 实用 的 例子 ， 我 们 将 学 习 三 种 基础 的 抽象 数据 类 型 : 背包 、 队 列 和 栈 。1.3 
节 用 数组 、 变 长 数组 和 链表 实现 了 背包 、 队 列 和 栈 的 API， 它 们 是 全 书 算法 实现 的 起 点 和 样板 。 


性 能 是 算法 研究 的 一 个 核心 问题 。1.4 节 描 述 了 分 析 算 法 性 能 的 方法 。 我 们 的 基本 做 法 是 科学 


式 的 ， 即 先 对 性 能 提出 假设 ， 建 立 数学 模型 ， 然 后 用 多 种 实验 验证 它们 ， 必 要 时 重复 这 个 过 程 。 
我 们 用 一 个 连通 性 问题 作为 例子 结束 本 章 ， 它 的 解法 所 用 到 的 算法 和 数据 结构 可 以 实现 经 典 的 


union-find 抽象 数据 结构 。 

算法 

编写 一 段 计算 机 程序 一 般 都 是 实现 一 种 
已 有 的 方法 来 解决 某 个 问题 。 这 种 方法 大 多 
和 使 用 的 编程 语言 无 关 一 一 它 适 用 于 各 种 计 
算 机 以 及 编程 语言 。 是 这 种 方法 而 非 计算 机 
程序 本 身 描 述 了 解决 问题 的 步 又。 在 计算 机 
科学 领域 ， 我 们 用 算法 这 个 词 来 描述 一 种 有 
限 、 确 定 、 有 效 的 并 适合 用 计算 机 程序 来 实 
现 的 解决 问题 的 方法 。 算 法 是 计算 机 科学 的 
基础 ， 是 这 个 领域 研究 的 核心 。 

要 定义 一 个 算法 ,我 们 可 以 用 自然 语言 
描述 解决 某 个 问题 的 过 程 或 是 编写 一 段 程序 
来 实现 这 个 过 程 。 如 发 明 于 2300 多 年 前 的 欧 
几 里 得 算法 所 示 ， 其 目的 是 找到 两 个 数 的 最 
大 公约 数 : 


自然 语言 描述 


计算 两 个 非 负 整 数 p 和 g 的 最 大 公约 数 : 车 
gq 是 0， 则 最 大 公约 数 为 p。 否 则 ， 将 p 除 以 
q 得 到 余数 r, p 和 g 的 最 大 公约 数 即 为 q 和 和 
r 的 最 大 公约 数 。 


Java 语言 描述 
public static int gcd(int p, int q) 


二 
if (q == 0) return p; 
int r= p%q; 
return gcd(q, r); 

} 


欧 几 里 得 算法 


2 了 本 第 1 章 基 础 


如 果 你 不 熟悉 欧 几 里 得 算法 ， 那 么 你 应 该 在 学 习 了 1.1 节 之 后 完成 练习 1.1.24 和 练习 1.1.25。 

在 本 书 中 ,我们 将 用 计算 机 程序 来 描述 算法 。 这 样 做 的 重要 原因 之 一 是 可 以 更 容易 地 验证 它们 是 否 

如 所 要 求 的 那样 有 限 、 确 定 和 有 效 。 但 你 还 应 该 意识 到 用 某 种 特定 语言 写 出 一 段 程序 只 是 表达 一 个 

算法 的 一 种 方法 。 数 十 年 来 本 书 中 许多 算法 都 曾 被 表达 为 多 种 编程 语言 的 程序 ， 这 正 说 明 每 种 算法 

都 是 适合 于 在 任何 计算 机 上 用 任何 编程 语言 实现 的 方法 。 

我 们 关注 的 大 多 数 算法 都 需要 适当 地 组 织 数据 ， 而 为 了 组 织 数 据 就 产生 了 数据 结构 ， 数 据 结 构 
也 是 计算 机 科学 研究 的 核心 对 象 ， 它 和 算法 的 关系 非常 密切 。 在 本 书 中 ,我 们 的 观点 是 数据 结构 是 
算法 的 副产品 或 是 结果 ,因此 要 理解 算法 必须 学 习 数 据 结构 。 简 单 的 算法 也 会 产生 复杂 的 数据 结构 ， 
相应 地 ， 复 杂 的 算法 也 许 只 需要 简单 的 数据 结构 。 本 书 中 我 们 将 会 研讨 许多 数据 结构 的 性 质 ， 也 许 

4 | 本 书 就 应 该 叫 《 算 法 与 数据 结构 》。 

当 用 计算 机 解决 一 个 问题 时 ， 一 般 都 存在 多 种 不 同 的 方法 。 对 于 小 型 问题 ， 只 要 管用 ， 方 法 的 
不 同 并 没有 什么 关系 。 但 是 对 于 大 型 问题 (或 者 是 需要 解决 大 量 小 型 问题 的 应 用 ) ， 我 们 就 需要 设 
计 能 够 有 效 利用 时 间 和 空间 的 方法 了 。 

学 习 算 法 的 主要 原因 是 它们 能 节约 非常 多 的 资源 ， 甚 至 能 够 让 我 们 完成 一 些 本 不 可 能 完成 的 任 
务 。 在 某 些 需 要 处 理 上 百 万 个 对 象 的 应 用 程序 中 ,设计 优良 的 算法 甚至 可 以 将 程序 运行 的 速度 提高 
数 百 万 倍 。 在 本 书 中 我 们 将 在 多 个 场景 中 看 到 这 样 的 例子 。 与 此 相反 ， 花 费 金钱 和 时 间 去 购置 新 的 
硬件 可 能 只 能 将 速度 提高 十 倍 或 是 百倍 。 无 论 在 任何 应 用 领域 ,精心 设计 的 算法 都 是 解决 大 型 问题 
最 有 效 的 方法 。 

在 编写 庞大 或 者 复杂 的 程序 时 ， 理 解 和 定义 问题 、 控 制 问题 的 复杂 度 和 将 其 分 解 为 更 容易 解决 
的 子 问题 需要 大 量 的 工作 。 很 多 时 候 ， 分 解 后 的 子 问题 所 需 的 算法 实现 起 来 都 比较 简单 。 但 是 在 大 
多 数 情 况 下 ， 某 些 算 法 的 选择 是 非常 关键 的 ， 因 为 大 多 数 系统 资源 都 会 消耗 在 它们 身上 。 本 书 的 焦 
点 就 是 这 类 算法 。 我 们 所 研究 的 基础 算法 在 许多 应 用 领域 都 是 解决 困难 问题 的 有 效 方法 。 

计算 机 程序 的 共享 已 经 变 得 越 来 越 广泛 ， 尽 管 书 中 涉及 了 许多 算法 ， 我 们 也 只 实现 了 其 中 的 一 
小 部 分 。 例 如 ，Java 库 包 含 了 许多 重要 算法 的 实现 。 但 是 ， 实 现 这 些 基础 算法 的 简化 版 本 有 助 于 我 
们 更 好 地 理解 、 使 用 和 优化 它们 在 库 中 的 高 级 版 本 。 更 重要 的 是 ， 我 们 经 常 需要 重新 实现 这 些 基础 
算法 ， 因 为 在 全 新 的 环境 中 ( 无论 是 硬件 的 还 是 软件 的 ) ， 原 有 的 实现 无 法 将 新 环境 的 优势 完全 发 
挥 出 来 。 在 本 书 中 ,我们 的 重点 是 用 最 简洁 的 方式 实现 优秀 的 算法 。 我 们 会 任 细 地 实现 算法 的 关键 
部 分 ， 并 尽 最 大 努力 揭示 如 何 进 行 有 效 的 底层 优化 工作 。 

5 为 一 项 任务 选择 最 合适 的 算法 是 困难 的 ， 这 可 能 会 需要 复杂 的 数学 分 析 。 计 算 机 科学 中 研究 这 
种 问题 的 分 支 叫 做 算法 分 析 。 通 过 分 析 ， 我 们 将 要 学 习 的 许多 算法 都 有 着 优秀 的 理论 性 能 ; 而 另 一 
些 我 们 则 只 是 根据 经 验 知道 它们 是 可 用 的 。 我 们 的 主要 目标 是 学 习 典 型 问题 的 各 种 有 效 算 法 ， 但 也 
会 广 意 比较 不 同 算法 之 间 的 性 能 差异 。 不 应 该 使 用 资源 消耗 情况 未 知 的 算法 ， 因 此 我 们 会 时 刻 关注 
算法 的 期 望 性 能 。 


本 书 框架 

接 下 来 概述 一 下 全 书 的 主要 内 容 ， 给 出 涉及 的 主题 以 及 本 书 大 致 的 组 织 结构 。 这 组 主题 触及 了 
尽 可 能 多 的 基础 算法 ， 其 中 的 某 些 领域 是 计算 机 科学 的 核心 内 容 ， 通 过 对 这 些 领域 的 深入 研究 ， 我 
们 找 出 了 应 用 广泛 的 基本 算法 ， 而 另 一 些 算 法 则 来 自 计算 机 科学 和 相关 领域 比较 前 沿 的 研究 成 果 。 
总 之 ， 本 书 讨论 的 算法 都 是 数 十 年 来 研发 的 重要 成 果 ， 它 们 将 继续 在 快速 发 展 的 计算 机 应 用 中 扮演 
重要 角色 。 


us 


第 1 章 基础 

它 讲解 了 在 随后 的 章节 中 用 来 实现 、 分 析 和 比较 算法 的 基本 原则 和 方法 ， 包 括 Java 编程 模型 、 
数据 抽象 、 基 本 数据 结构 、 集 合 类 的 抽象 数据 类 型 、 算 法 性 能 分 析 的 方法 和 一 个 案例 分 析 。 
第 2 章 排序 

有 序 地 重新 排列 数组 中 的 元 素 是 非常 重要 的 基础 算法 。 我 们 会 深入 人 研究 各 种 排序 算法 ， 包 括 插 
入 排序 、 选 择 排 序 、 希 尔 排序 、 快 速 排序 、 归 并 排序 和 堆 排 序 。 同 时 我 们 还 会 讨论 男 外 一 些 算法 ， 
它们 用 于 解决 几 个 与 排序 相关 的 问题 ， 例 如 优先 队列 、 选 举 以 及 归并 。 其 中 许多 算法 会 成 为 后 续 章 
节 中 其 他 算法 的 基础 。 
第 3 章 查找 

从 庞大 的 数据 集中 找到 指定 的 条 目 也 是 非常 重要 的 。 我 们 将 会 讨论 基本 的 和 高 级 的 查找 算法 ， 
包括 二 又 查 找 树 、 平 衡 查找 树 和 散 列 表 。 我 们 会 梳理 这 些 方法 之 间 的 关系 并 比较 它们 的 性 能 。 
第 4 章 
图 的 主要 内 容 是 对 象 和 它们 的 连接 ， 连 接 可 能 有 权重 和 方向 。 利 用 图 可 以 为 大 量 重要 而 困难 的 
问题 建 模 ， 因 此 图 算法 的 设计 也 是 本 书 的 一 个 主要 研究 领域 。 我 们 会 研究 深度 优先 搜索 、 广 度 优 先 
搜索 、 连 通 性 问题 以 及 若干 其 他 算法 和 应 用 ， 包 括 Kruskal 和 Prim 的 最 小 生成 树 算法 、Dijkstra 和 
Bellman-Ford 的 最 短路 径 算 法 。 
第 5 章 字符 串 

字符 串 是 现代 应 用 程序 中 的 重要 数据 类 型 。 我 们 将 会 研究 一 系列 处 理 字符 串 的 算法 ， 首 先是 对 
字符 串 键 的 排序 和 查找 的 快速 算法 ， 然 后 是 子 字符 串 查 找 、 正 则 表达 式 模式 匹配 和 数据 压缩 算法 。 
此 外 ， 在 分 析 一 些 本 身 就 十 分 重要 的 基础 问题 之 后 ， 这 一 章 对 相关 领域 的 前 沿 话题 也 作 了 介绍 。 
第 6 章 背景 

这 一 章 将 讨论 与 本 书 内 容 有 关 的 若干 其 他 前 沿 研 究 领 域 ,包括 科学 计算 、 运 筹 学 和 计算 理论 。 
我 们 会 介绍 性 地 讲 一 下 基于 事件 的 模拟 、B 树 、 后 绥 数 组 、 最 大 流量 问题 以 及 其 他 高 级 主题 ， 以 帮 
助 读者 理解 算法 在 许多 有 趣 的 前 沿 研 究 领 域 中 所 起 到 的 巨大 作用 。 最 后 ， 我 们 会 讲 一 讲 搜索 问题 、 
问题 转化 和 NP 完全 性 等 算法 研究 的 支柱 理论 ， 以 及 它们 和 本 书 内 容 的 联系 。 

学 习 算 法 是 非常 有 趣 和 令 人 激动 的 ， 因 为 这 是 一 个 历久 弥 新 的 领域 ( 我们 学 习 的 绝 大 多 数 算法 
都 还 不 到 “五 十 岁 ”， 有 些 还 是 最 近 才 发 明 的 ， 但 也 有 一 些 算法 已 经 有 数 百 年 的 历史 ) 。 这 个 领域 
不 断 有 新 的 发 现 , 但 研究 透彻 的 算法 仍然 是 少数 。 本 书 中 既 有 精巧 、 复 杂 和 高 难度 的 算法 , 也 有 优雅 、 
朴素 和 简单 的 算法 。 在 科学 和 商业 应 用 中 ,我 们 的 目标 是 理解 前 者 并 熟悉 后 者 ， 这 样 才能 掌握 这 些 
有 用 的 工具 并 学 会 算法 式 思考 ， 以 迎接 未 来 计算 任务 的 挑战 。 


1.1 基础 编程 模型 


我 们 学 习 算 法 的 方法 是 用 Java 编程 语言 编写 的 程序 来 实现 算法 。 这 样 做 是 出 于 以 下 原因 : 


口 程序 是 对 算法 精确 、 优 雅 和 完全 的 描述 ; 


口 可 以 在 应 用 程序 中 直接 使 用 这 些 算法 。 


口 可 以 通过 运行 程序 来 学 习 算法 的 各 种 性 质 ; 


相 比 用 自然 语言 描述 算法 ,这些 是 重要 而 巨大 的 优势 。 
这 样 做 的 一 个 缺点 是 我 们 要 使 用 特定 的 编程 语言 , 这 会 使 分 离 算 法 的 思想 和 实现 细节 变 得 困难 。 


我 们 在 实现 算法 时 考虑 到 了 这 一 点 ， 只 使 用 了 大 多 数 现代 编程 语言 都 具有 且 能 够 充分 描述 算法 所 必 


需 的 语法 。 


我 们 仅 使 用 了 Java 的 一 个 子 集 。 尽 管 我 们 没有 明确 地 说 明 这 个 子 集 的 范围 ， 但 你 也 会 看 到 我 们 


只 使 用 了 很 少 的 Java 特性 ， 而 且 会 优先 使 用 大 多 数 现 代 编 程 语言 所 共有 的 语法 。 我 们 的 代码 是 完整 


的 ， 因 此 希望 你 能 下 载 这 些 代 码 并 用 我 们 的 测试 数据 或 是 你 自己 的 来 运行 它们 。 
我 们 把 描述 和 实现 算法 所 用 到 的 语言 特性 、 


节 以 及 1.2 节 会 详细 说 明 这 个 模型 ， 相 关内 容 目 


软件 库 和 操作 系统 特性 总 称 为 基础 编程 模型 。 本 
成 一 体 ， 主 要 是 作为 文档 供 读 考 查阅， 以便 理解 本 


书 的 代码 。 我 们 的 另 一 本 入门 级 的 书籍 4n Introduction to Programming in Java: An Interdisciplinary 


Approach 也 使 用 了 这 个 模型 。 


作为 参考 ， 图 1.1.1 所 示 的 是 一 个 完整 的 Java 程序 。 它 说 明了 我 们 的 基础 编程 模型 的 许多 基本 
特点 。 在 讨论 语言 特性 时 我 们 会 用 这 段 代 码 作 为 例子 , 但 可 以 先 不 用 考虑 代码 的 实际 意义 ( 它 实 现 
了 经 典 的 二 分 查找 算法 ， 并 在 白 名 单 过 滤 应 用 中 对 算法 进行 了 检验 ， 请 见 1.1.10 节 ) 。 我 们 假设 你 


具备 某 种 主流 语言 编程 的 经 验 ， 因 此 你 应 该 知道 这 段 代码 中 的 大 多 数 要 点 。 图 中 的 注释 应 该 能 够 解 


答 你 的 任何 疑问 。 因 为 图 中 的 代码 某 种 程度 上 反映 了 本 书 代码 的 风格 ， 而 且 对 各 种 Java 编程 惯例 和 


语言 构造 ， 在 用 法 上 我 们 都 力求 一 致 ， 所 以 即使 


1.1.1 Java 程序 的 基本 结构 


是 经 验 丰富 的 Java 程序 员 也 应 该 看 一 看 。 


一 段 Java 程序 ( 类 ) 或 者 是 一 个 静态 方法 ( 函数 ) 库 ， 或 者 定义 了 一 个 数据 类 型 。 要 创建 静态 


方法 库 和 定义 数据 类 型 ,会 用 到 下 面 七 种 语法 ,它们 是 Java 语 言 的 基础 ,也 是 大 多 数 现代 语言 所 共有 的 。 


取 值 范围 和 能 够 对 相应 的 值 进行 的 操作 ， 


用 六 种 语句 : 声明 、 赋 值 、 条 件 、 循 环 、 


口 原始 数据 类 型 : 它们 在 计算 机 程序 中 精确 地 定义 整数 、 浮 点 数 和 布尔 值 等 。 它 们 的 定义 包括 


它们 能 够 被 组 合 为 类 似 于 数学 公式 定义 的 表达 式 。 


口 语句 : 语句 通过 创建 变量 并 对 其 赋值 、 控 制 运行 流程 或 者 引发 副作用 来 进行 计算 。 我 们 会 使 


调用 和 返回 。 


口 数组 : 数组 是 多 个 同 种 数据 类 型 的 值 的 集合 。 

口 静态 方法 : 静态 方法 可 以 封装 并 重用 代码 ， 使 我 们 可 以 用 独立 的 模块 开发 程序 。 

口 字符 串 : 字符 串 是 一 连 串 的 字符 ，Java 内 置 了 对 它们 的 一 些 操 作 。 

口 标准 输入 /输出 : 标准 输入 输出 是 程序 与 外 界 联系 的 桥梁 。 

口 数据 抽象 : 数据 抽象 封装 和 重用 代码 , 使 我 们 可 以 定义 非 原始 数据 类 型 , 进而 支持 面向 对 象 编程 。 


我 们 将 在 本 节 学 习 前 六 种 语法 ， 数 据 抽象 是 下 一 节 的 主题 。 
运行 Java 程序 需要 和 操作 系统 或 开发 环境 打交道 。 为 了 清晰 和 简洁 ， 我 们 把 这 种 输入 命令 执行 


程序 的 环境 称 为 虚拟 终端 。 请 登录 本 书 的 网 站 去 了 解 如 何 使 用 虚拟 终端 ， 或 是 现代 系统 中 许多 其 他 


高 级 的 编程 开发 环境 的 使 用 方法 。 


在 例子 中 ，BinarySearch 类 有 两 个 静态 方法 rankQO 和 main()。 第 一 个 方法 rankQ 含有 四 条 
语句 : 两 条 声明 语句 , 一 条 循环 语句 (该 语句 中 又 有 一 条 赋值 语句 和 两 条 条 件 语句 ) 和 一 条 返回 语句 。 
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第 二 个 方法 main() 包含 三 条 语句 : 一 条 声明 语句 、 一 条 调用 语句 和 一 个 循环 语句 〈 该 语句 中 又 包 
含 一 条 赋值 语句 和 一 条 条 件 语句 ) 。 

要 执行 一 个 Java 程序 ， 首 先 需 要 用 javac 命令 编译 它 ， 然 后 再 用 java 命令 运行 它 。 例 如 ， 要 
运行 BinarySearch， 首 先 要 输入 javac BinarySearch.java (这 将 生成 一 个 叫 BinarySearch.class 
的 文件 ， 其 中 含有 这 个 程序 的 Java 字 节 码 ) ; 然后 再 输入 java BinarySearch (接着 是 一 个 白 名 
单 文件 名 ) 把 控制 权 移交 给 这 上 段 字 节 人 码 程 序 。 为 了 理解 这 段 程序 ， 我 们 接 下 来 要 详细 介绍 原始 数据 
类 型 和 表达 式 ， 各 种 Java 语句 、 数 组 、 静 态 方法 、 字 符 串 和 输入 输出 。 


导入 一 个 Java 库 〈 请 见 1.1.6.8 节 ) 


import java.util.Arrays; 代码 文件 名 必须 是 BinarySearch.java 
(请 见 1.1.6.5 节 ) 
public class BinarySearch 参数 变量 四 
{ 数 变 量 静 坊 方法 《请 见 1.1.6.1 节 ) 
public static int rank(int key，int[] a) 
初始 化 声明 语句 |{ 人 \ 返 回 值 ”参数 类 开 


一 >~int lo = 0; 
int hi = a.length - 1; 


while (lo <= hi) .,. es 
{ 表达 式 (请 见 1.1.2 节 ) 


int mid =|lo + (hi - 10) / 2; 
循环 语句 (请 让 (key < afmi T=mid -1; 


(请 见 1.1.4.1 节 ) 


见 1.1.3.4 节 ) else if (key > a[mid]) lo = mid + 1; 
else return mid; 
} 
return -1; 
} ~ 返回 语句 
系统 调用 ; main() 单元 测试 用 例 (请 见 1.1.6.7 节 


public static void main(String[] args) 


{ 
没有 返回 值 ， 只 有 副作用 (请 见 1.1.6.3 节 ) 
int[] whitelist = In.readIntsCargs[0]) ; 


Arrays.sort(whitelist); < \— 调用 Java 库 
Rem 1。 方法 (请 见 ]1.6 


while (!StdIn.isEmpty())<— 调用 我 们 的 


int key = stdIn ‘readIntO ;~ 玫 同人 用 二 
条 件 语 句 (请 TiF CrankCkey, whiteTlist) == -1) (请 1 1 
见 1.1.3.3 节 ) Stdout .printlnCkey) ; 国人 


Y 
系统 将 "Largew.txt" 作 
为 参数 传递 给 main() 


命令 行 〈 请 见 1.1.9.1 节 ) 


文件 名 ， rd [0] 


% java BinarySearch largeW.txt < largeT.txt 
StdOut 的 输出 
(请 见 1.1.9.2 节 ) ”基因 | | 
984875 重 定 向 后 向 StdIn 输 入 
的 文件 〈 请 见 1.1.9.5 节 ) 


图 1.1. 1 Java 程序 及 其 命令 行 的 调用 10 
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1.1.2 原始 数据 类 型 与 表达 式 

数据 类 型 就 是 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 。 首 先 考 虑 以 下 4 种 Java 语言 最 基本 的 原 

始 数据 类 型 : 

口 整 型 ， 及 其 算术 运算 符 (int ) ; 

口 双 精 度 实数 类 型 ， 及 其 算术 运算 符 (double ) ; 

口 布尔 型 ， 它 的 值 {true，false} 及 其 逻辑 操作 (boolean ) ; 

口 字符 型 ， 它 的 值 是 你 能 够 输入 的 英文 字母 数字 字符 和 符号 ( char ) 。 

接 下 来 我 们 看 看 如 何 指明 这 些 类 型 的 值 和 对 这 些 类 型 的 操作 。 

Java 程序 控制 的 是 用 标识 符 命名 的 变量 。 每 个 变量 都 有 自己 的 类 型 并 存储 了 一 个 合法 的 值 。 在 
Java 代码 中 ， 我 们 用 类 似 数 学 表达 式 的 表达 式 来 实现 对 各 种 类 型 的 操作 。 对 于 原始 类 型 来 说 ， 我 们 
标识 符 来 引用 变量 ， 用 +、-、*、/ 等 运算 符 来 指定 操作 ， 用 字面 量 ， 例 如 工 或 者 3.14 来 表示 
值 , 用 形 如 (x+2.236)/2 的 表达 式 来 表示 对 值 的 操作 。 表达 式 的 目的 就 是 计算 某 种 数据 类 型 的 值 。 
表 1.1.1 对 这 些 基 本 内 容 进 行 了 说 明 。 


表 1.1.1 Java 程序 的 基本 组 成 


术 语 例 子 定义 
原始 数据 类 型 ”int double boolean char 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 ( Java 语言 内 置 ) 
标识 符 a abc Ab$ a_b ab123 1o hi 1 字母 、 数 字 、 下 划 线 和 $ 组 成 的 字符 串 ， 首 字符 不 能 是 
数字 
变量 [ 任意 标识 符 ] 表示 某 种 数据 类 型 的 值 
运算 符 = 表示 某 种 数据 类 型 的 运算 
字面 量 int 10-42 值 在 源 代码 中 的 表示 
double 2.0 1.0e-15 3.14 
boolean true false 
hiar ‘a i gr ANn 
表达 式 int lo + (hi - 10) / 2 字面 量变 量 或 是 能 够 计算 出 结果 的 一 串 字 面 量 、 变 量 和 
double li0e=15 -二 运算 符 的 组 合 
boolean 1o <= hi 


只 要 能 够 指定 值 域 和 在 此 值 域 上 的 操作 ， 就 能 定义 一 个 数据 类 型 。 表 1.1.2 总 结 了 Java 的 
int、double、boolean 和 char 类 型 的 相关 信息 。 许 多 现代 编程 语言 中 的 基本 数据 类 型 和 它们 都 
很 相似 。 对 于 int 和 double 来 说 ， 这 些 操 作 是 我 们 熟悉 的 算术 运算 ; 对 于 boolean 来 说 则 是 逻辑 
运算 。 需 要 注意 的 重要 一 点 是 ，+、-、*、// 都 是 被 重 载 过 的 一 一 根据 上 下 文 ， 同 样 的 运算 符 对 不 
同类 型 会 执行 不 同 的 操作 。 这 些 初级 运算 的 关键 性 质 是 运算 产生 的 数据 的 数据 类 型 和 参与 运算 的 数 
据 的 数据 类 型 是 相同 的 。 这 也 意味 着 我 们 经 常 需要 处 理 近似 值 ， 因 为 很 多 情况 下 由 表达 式 定 义 的 准 
确 值 并 非 参 与 表达 式 运 算 的 值 。 例 如 ，5/3 的 值 是 1 而 5.0/3.0 的 值 是 1.66666666666667， 两 者 
都 很 接近 但 并 不 准确 地 等 于 5/3。 下 表 并 不 完整 ， 我 们 会 在 本 节 最 后 的 答疑 部 分 中 讨论 更 多 运算 符 
和 偶尔 需要 考虑 到 的 各 种 异常 情况 。 


表 1.1.2 Java 中 的 原始 数据 类 型 


类 型 值 域 运 算 符 型 


典型 表 i 
表 达 式 值 
int -23 至 +22_1 之 间 的 整 +( 加 ) 5+3 8 
数 (32 位 , 二 进 制 补 码 ) -( 减 ) 下 大 六 2 
*( 乘 ) 5 15 
/( 除 ) 2 /3 1 
5 %3 2 


% ( 求 余 ) 
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( 续 ) 
二 典型 表达 式 
中 了 。 和 
类 型 值 域 运 算 符 表 达 式 值 
double 双 精 度 实 数 (64 位 ， + (加 ) 3.141 + 0.03 3.171 
IEEE 754 标准 ) -( 减 ) 2.0 - 2.0e-7 1.9999998 
* ( 乘 ) 100 * 0.015 1.5 
/( 除 ) 6.02e23 / 2.0 3.01e23 
boolean true 或 false && (与 ) true && false false 
[| (或 ) false || true true 
! ( 非 ) !false true 
入 ( 异 或 ) true A true false 
char 字符 (16 位 ) (算术 运算 符 ， 但 很 少 使 用 ) 12 


1.1.2.1 ”表达 式 

如 表 1.1.2 所 示 ,Java 使 用 的 是 中 组 表达 式 : 一 个 字面 量 ( 或 是 一 个 表达 式 ), 紧 接 着 是 一 个 运算 符 ， 
再 接着 是 另 一 个 字面 量 ( 或 者 另 一 个 表达 式 ) 。 当 一 个 表达 式 包含 一 个 以 上 的 运算 符 时 ， 运 算 符 的 
作用 顺序 非常 重要 ， 因 此 Java 语言 规范 约定 了 如 下 的 运算 符 优 先 级 : 运算 符 * 和 7/ (以 及 %) 的 优 
先 级 高 于 + 和 - (优先 级 越 高 ， 越 早 运算 ) ; 在 逻辑 运算 符 中 ，! 拥有 最 高 优先 级 ， 之 后 是 &&， 接 
下 来 是 11。 一般 来 说 , 相同 优先 级 的 运算 符 的 运算 顺序 是 从 左 至 右 。 与 在 正常 的 算数 表达 式 中 一 样 ， 
使 用 括号 能 够 改变 这 些 规则 。 因 为 不 同 语言 中 的 优先 级 规则 会 有 些许 不 同 ， 我 们 在 代码 中 会 使 用 括 
号 并 用 各 种 方法 努力 消除 对 优先 级 规则 的 依赖 。 
1.1.2.2 ”类 型 转换 

如 果 不 会 损失 信息 ， 数 值 会 被 自动 提升 为 高 级 的 数据 类 型 。 例 如 ， 在 表达 式 1+2.5 中 ，1 会 被 
转换 为 浮 点 数 1.0， 表 达 式 的 值 也 为 double 值 3.5。 转 换 指 的 是 在 表达 式 中 把 类 型 名 放 在 括号 里 
将 其 后 的 值 转换 为 括号 中 的 类 型 。 例 如 ，(Cint)3.7 的 值 是 3 而 (doub1e)3 的 值 是 3.0。 需 要 注意 
的 是 将 浮 点 型 转换 为 整 型 将 会 截断 小 数 部 分 而 非 四 舍 五 入 ， 在 复杂 的 表达 式 中 的 类 型 转换 可 能 会 很 
复杂 ， 应 该 小 心 并 尽量 少 使 用 类 型 转换 ， 最 好 是 在 表达 式 中 只 使 用 同一 类 型 的 字面 量 和 变量 。 
1.1.2.3 ”比较 

下 列 运算 符 能 够 比较 相同 数据 类 型 的 两 个 值 并 产生 一 个 布尔 值 ， 相 等 (==) 、 不 等 (!=) 、 小 
于 (<) 、 小 于 等 于 (<=) 、 大 于 (>) 和 大 于 等 于 (>= ) 。 这 些 运算 符 被 称 为 混合 类 型 运算 符 ， 
为 它们 的 结果 是 布尔 型 ， 而 不 是 参与 比较 的 数据 类 型 。 结 果 是 布尔 型 的 表达 式 被 称 为 布尔 表达 式 。 
我 们 将 会 看 到 这 种 表达 式 是 条 件 语句 和 循环 语句 的 重要 组 成 部 分 。 
1.1.2.4 ”其 他 原始 类 型 

Java 的 int 型 能 够 表示 2 ”个 不 同 的 值 ， 用 一 个 字 长 32 位 的 机 器 字 即 可 表示 (虽然 现在 的 许多 
计算 机 有 字 长 64 位 的 机 器 字 , 但 int 型 仍然 是 32 位 ) 。 与 此 相似 ，double 型 的 标准 规定 为 64 位 。 
这 些 大 小 对 于 一 般 应 用 程序 中 使 用 的 整数 和 实数 已 经 足够 了 。 为 了 提供 更 大 的 灵活 性 ，Java 还 提供 
了 其 他 五 种 原始 数据 类 型 : 
口 64 位 整数 ， 及 其 算术 运算 符 (1ong); 
口 16 位 整数 ， 及 其 算术 运算 符 (short); 
口 16 位 字符 ， 及 其 算术 运算 符 (char); 
口 8 位 整数 ， 及 其 算术 运算 符 (byte); 
口 32 位 单 精度 实数 ， 及 其 算术 运算 符 (float)。 
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在 本 书 中 我 们 大 多 使 用 int 和 double 进行 算术 运算 ， 因 此 我 们 在 此 不 会 再 详细 讨论 其 他 类 似 
的 数据 类 型 。 


1.1.3 语句 

Java 程序 是 由 语句 组 成 的 。 语 句 能 够 通过 创建 和 操作 变量 、 对 变量 赋值 并 控制 这 些 操 作 的 执行 
流程 来 描述 运算 。 语 句 通常 会 被 组 织 成 代码 段 ， 即 花 括 号 中 的 一 系列 语句 。 
口 声明 语句 : 创建 某 种 类 型 的 变量 并 用 标识 符 为 其 命名 。 
口 赋值 语句 : 将 (由 表达 式 产生 的 ) 某 种 类 型 的 数值 赋予 一 个 变量 。Java 还 有 一 些 隐 式 赋 值 的 
语法 可 以 使 某 个 变量 的 值 相对 于 当前 值 发 生变 化 ， 例 如 将 一 个 整 型 值 加 1。 
口 条 件 语句 : 能 够 简单 地 改变 执行 流程 一 一 根据 指定 的 条 件 执行 两 个 代码 段 之 一 。 
口 循环 语句 : 更 彻底 地 改变 执行 流程 一 一 只 要 条 件 为 真 就 不 断 地 反复 执行 代码 段 中 的 语句 。 
口 调用 和 返回 语句 : 和 静态 方法 有 关 ( 见 1.1.6 节 ) , 是 改变 执行 流程 和 代码 组 织 的 另 一 种 方式 。 
程序 就 是 由 一 系列 声明 、 赋 值 、 条 件 、 循 环 、 调 用 和 返回 语句 组 成 的 。 一 般 来 说 代码 的 结构 都 
是 吝 套 的 : 一 个 条 件 语句 或 循环 语句 的 代码 段 中 也 能 包含 条 件 语句 或 是 循环 语句 。 例 如 ，rankO) 
中 的 while 循环 就 包含 一 个 if 语句 。 接 下 来 ,我 们 逐个 说 明 各 种 类 型 的 语句 。 
1.1.3.1 ”声明 语句 

声明 语句 将 一 个 变量 名 和 一 个 类 型 在 编译 时 关联 起 来 。Java 需要 我 们 用 声明 语句 指定 变量 的 名 
称 和 类 型 。 这 样 ， 我 们 就 清楚 地 指明 了 能 够 对 其 进行 的 操作 。Java 是 一 种 强 类 型 的 语言 ， 因 为 Java 
译 器 会 检查 类 型 的 一 致 性 〈 例 如 ， 它 不 会 允许 将 布尔 类 型 和 浮 点 类 型 的 变量 相 乘 ) 。 变 量 可 以 声 
明 在 第 一 次 使 用 之 前 的 任何 地 方 一 一 一 般 我 们 都 在 首次 使 用 该 变量 的 时 候 声明 它 。 变 量 的 作用 域 就 
是 定义 它 的 地 方 ， 一 般 由 相同 代码 段 中 声明 之 后 的 所 有 语句 组 成 。 
1.1.3.2 ”赋值 语句 

赋值 语句 将 ( 由 一 个 表达 式 定义 的 ) 某 个 数据 类 型 的 值 和 一 个 变量 关联 起 来 。 在 Java 中 ， 当 我 
们 写 下 c=a+b 时 ， 我 们 表达 的 不 是 数学 等 式 ， 而 是 一 个 操作 ， 即 令 变 量 c 的 值 等 于 变量 a 的 值 与 变 
量 b 的 值 之 和 。 当 然 ， 在 赋值 语句 执行 后 ， 从 数学 上 来 说 c 的 值 必然 会 等 于 a+b， 但 语句 的 目的 是 
改变 c 的 值 (如果 需 要 的 话 ) 。 赋 值 语句 的 左 侧 必须 是 单个 变量 ， 右 侧 可 以 是 能 够 得 到 相应 类 型 的 
值 的 任意 表达 式 。 
1.1.3.3 ”条件 语 名 

大 多 数 运 算 都 需要 用 不 同 的 操作 来 处 理 不 同 的 输入 。 在 Java 中 表达 这 种 差异 的 一 种 方法 是 if 
语句 : 

if (<boolean expression>) { <block statements> } 
这 种 描述 方式 是 一 种 叫做 模板 的 形式 记 法 ,我 们 偶尔 会 使 用 这 种 格式 来 表示 Java 的 语法 。 尖 括号 

( <> ) 中 的 是 我 们 已 经 定义 过 的 语法 ， 这 表示 我 们 可 以 在 指定 的 位 置 使 用 该 语法 的 任意 实例 。 在 这 

里 ，<boolean expression> 表示 一 个 布尔 表达 式 ， 例 如 一 个 比较 操作 。<block statements> 表 
示 一 段 Java 语句。 我们 也 可 以 给 出 <boolean expression> 和 <block statements> 的 形式 定义 ， 
不 过 我 们 不 想 深入 这 些 细节 。if 语句 的 意义 不 言 自明 : 当 且 仅 当 布尔 表达 式 的 值 为 真 (true) 时 代 
码 段 中 的 语句 才 会 被 执行 。 以 下 if-else 语句 能 够 在 两 个 代码 段 之 间作 出 选择 : 


if (<boolean expression>) { <block statements> } 
else { <block statements> } 


或 


1.1 基础 编程 模型 二 9 


1.1.3.4 ”循环 语句 

许多 运算 都 需要 重复 。Java 语言 中 处理 这 种 计算 的 基本 语句 的 格式 是 : 

while (<boolean expression>) { <block statements> } 
while 语句 和 if 语句 的 形式 相似 ( 只 是 用 while 代替 了 if) ,但 意义 大 有 不 同 。 当 布尔 表达 式 的 
值 为 假 ( false ) 时 , 代码 什么 也 不 做 ; 当 布 尔 表达 式 的 值 为 真 (true ) 时 , 执行 代码 段 (和 if 一 样 ) ， 
然后 再 次 检查 布尔 表达 式 的 值 ， 如 果 仍 然 为 真 ， 再 次 执行 代码 段 。 如 此 这 般 ， 只 要 布尔 表达 式 的 值 
为 真 ， 就 继续 执行 代码 段 。 我 们 将 循环 语句 中 的 代码 段 称 为 循环 体 。 
1.1.3.5 ”break 与 continue 语句 

有 些 情 况 下 我 们 也 会 需要 比 基 本 的 if 和 while 语句 更 加 复杂 的 流程 控制 。 相 应 地 ，Java 支持 
在 while 循环 中 使 用 男 外 两 条 语句 : 

口 break 语句 ， 立 即 从 循环 中 退出 ; 

口 continue 语句 ， 立 即 开始 下 一 轮 循环 。 

本 书 很 少 在 代码 中 使 用 它们 (许多 程序 员 从 来 都 不 用 ) ， 但 在 某 些 情况 下 它们 的 确 能 够 大 大 简 
化 代码 。 15 
1.1.4 简便 记 法 
程序 有 很 多 种 写法 ， 我 们 追求 清晰 、 优 雅 和 高 效 的 代码 。 这 样 的 代码 经 常会 使 用 以 下 这 些 广 为 
流传 的 简便 写法 (不 仅仅 是 Java， 许 多 语言 都 支持 它们 ) 。 
1.1.4.1 声明 并 初始 化 

可 以 将 声明 语句 和 赋值 语句 结合 起 来 ， 在 声明 ( 创建 ) 一 个 变量 的 同时 将 它 初始 化 。 例 如 ， 
int i = 1; 创建 了 名 为 i 的 变量 并 赋予 其 初始 值 1。 最 好 在 接近 首次 使 用 变量 的 地 方 声明 它 并 将 
其 初始 化 (为 了 限制 它 的 作用 域 ) 。 
1.1.4.2” 隐 式 赋 值 

当 希 望 一 个 变量 的 值 相对 于 其 当前 值 变化 时 ， 可 以 使 用 一 些 简便 的 写法 。 

口 递增 /递减 运算 符 ，++i; 等 价 于 i=i+1; 且 表 达 式 为 i+1;。 类 似 地 ，--i; 等 价 于 i=i- 

1;。i++; 和 1i--; 的 意思 分 别 与 上 述 的 ++i; 和 --i; 相同 。 

口 其 他 复合 运算 符 ， 在 赋值 语句 中 将 一 个 二 元 运算 符 写 在 等 号 之 前 ， 等 价 于 将 左边 的 变量 放 在 
等 号 右边 并 作为 第 一 个 操作 数 。 例 如 ，i/=2; 等 价 于 i=i/2;。 注 意 , i += 1; 等 价 于 i = 
i + 1; (以 及 ++i;)。 

1.1.4.3” 单 语句 代码 段 

如 果 条 件 或 循环 语句 的 代码 段 只 有 一 条 语句 ， 代 码 段 的 花 括 号 可 以 省 略 。 
1.1.4.4 for 语句 

很 多 循环 的 模式 都 是 这 样 的 : 初始 化 一 个 索引 变量 ， 然 后 使 用 while 循环 并 将 包含 索引 变量 的 
表达 式 作为 循环 的 条 件 ，while 循环 的 最 后 一 条 语句 会 将 索引 变量 加 1。 使 用 Java 的 for 语句 可 以 
更 紧凑 地 表达 这 种 循环 : 


for (<initialize>; <boolean expression>; <increment>) 


<block statements> 


} 
除了 儿 种 特殊 情况 之 外 ， 这 段 代码 都 等 价 于 : 
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<initialize>; 
while (<boolean expression>) 
<block statements> 


<increment>; 


} 
我 们 将 使 用 for 语句 来 表示 对 这 种 初始 化 一 递增 循环 用 法 的 支持 。 
表 1.1.3 总 结 了 各 种 Java 语句 及 其 示例 与 定义 。 


表 1.1.3 Java 语句 


语 名 示 例 义 

声明 语句 int i; 创建 一 个 指定 类 型 的 变量 并 用 标识 符 
double c; 命名 

赋值 语句 a=b+3; 将 某 一 数据 类 型 的 值 赋予 一 个 变量 
discriminant =b*b-4.0*c; 

声明 并 初始 化 int i = 1; 在 声明 时 赋予 变量 初始 值 
double c = 3.14159265; 

隐 式 赋值 ++1 i=i+l; 
i += 1; 

条 件 语句 (if ) if (x < 0) x = -x; 根据 布尔 表达 式 的 值 执 行 一 条 语句 

条 件 语句 (if-else ) if (x > y) max = Xx; 根据 布尔 表 达 式 的 值 执 行 两 条 语句 中 
else max = y; 的 一 条 

循环 语句 (while ) int v = 0; 执行 语句 ， 直 至 布尔 表达 式 的 值 变 为 
whileCy. <= N) 假 (false) 


double t = c; 
while (Math.abs(t - c/t) > le-15*t) 
= (Cc/t + t) / 2.0; 


循环 语句 ( for ) for (int i1 = 1; i <= Ni i++) while 语句 的 简化 版 
sum += 1.0/i; 
for (int i = 0; i <= Ni i++) 
StdOut.printin(2*Math.PI*i/N); 


调用 语句 int key = StdIn.readInt() ; 调用 另 一 方法 (请 见 1.1.6.2 节 ) 
返回 语句 return false; 从 方法 中 返回 (请 见 1.1.6.3 节 ) 
1.1.5 数组 


数组 能 够 顺序 存储 相同 类 型 的 多 个 数据 。 除 了 存储 数据 ， 我 们 也 希望 能 够 访问 数据 。 访 问 数组 
中 的 某 个 元 素 的 方法 是 将 其 编号 然后 索引 。 如 果 我 们 有 NN 个 值 ， 它 们 的 编号 则 为 0 至 N-1。 这 样 
对 于 0 到 WN-1 之 间 任 意 的 1， 我 们 就 能 够 在 Java 代码 中 用 a[i] 唯一 地 表示 第 i+1 个 元 素 的 值 。 在 
Java 中 这 种 数组 被 称 为 一 维 数组 。 
1.1.5.1 创建 并 初始 化 数组 
在 Java 程序 中 创建 一 个 数组 需要 三 步 : 
口 声明 数组 的 名 字 和 类 型 ; 
口 创建 数组 ; 
口 初始 化 数组 元 素 。 
在 声明 数组 时 ， 需 要 指定 数组 的 名 称 和 它 含 有 的 数据 的 类 型 。 在 创建 数组 时 ， 需 要 指定 数组 的 
长 度 ( 元 素 的 个 数 ) 。 例 如 , 在 以 下 代码 中 ,“ 完 整 模式 ”部 分 创建 了 一 个 有 NN 个 元 素 的 double 数组 ， 
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所 有 的 元 素 的 初始 值 都 是 0.0。 第 一 条 语句 是 数组 的 。 完整 模式 一 志明 数组 
声明 ， 它 和 声明 一 个 相应 类 型 的 原始 数据 类 型 变量 double[] a; 创建 数组 
十 分 相似 ， 只 有 类 型 名 之 后 的 方 括号 说 明 我 们 声明 i i i 

or (int 1 = 0; i < N; i++) 
的 是 一 个 数组 。 第 二 条 语句 中 的 关键 字 new 使 Java ey 
创建 了 这 个 数组 。 我 们 需要 在 运行 时 明确 地 创建 数 。 二 tr 呈 半 一 ~ 初始 化 数组 


组 的 原因 是 Java 编译 器 在 编译 时 无 法 知道 应 该 为 数 
组 预 留 多 少 空间 ( 对 于 原始 类 型 则 可 以 ) 。for 语 
句 初 始 化 了 数组 的 N 个 元 素 ， 将 它们 的 值 置 为 0.0。 声明 初始 化 


double[] a = new double[N]; 


在 代码 中 使 用 数组 时 ， 一 定 要 依次 声明 、 创 建 并 初 Wn] 本 2 全 二 入 
始 化 数组 。 忽 略 了 其 中 的 任何 一 步 都 是 很 常见 的 编 声明 、 创 建 并 初始 化 一 个 数组 
程 错误 。 


1.1.5.2 ”简化 写法 
为 了 精简 代码 ， 我 们 常常 会 利用 Java 对 数组 默认 的 初始 化 来 将 三 个 步骤 合 为 一 条 语句 ， 即 上 例 
中 的 简化 写法 。 等 号 的 左 侧 声 明了 数组 ， 等 号 的 右 侧 创建 了 数组 。 这 种 写法 不 需要 for 循环 ， 因 为 
在 一 个 Java 数组 中 double 类 型 的 变量 的 默认 初始 值 都 是 0.0， 但 如 果 你 想 使 用 不 同 的 初始 值 , 那 |18 
么 就 需要 使 用 for 循环 了 。 数 值 类 型 的 默认 初始 值 是 0， 布 尔 型 的 默认 初始 值 是 false。 例 子 中 的 
第 三 种 方式 用 花 括号 将 一 列 由 逗号 分 隔 的 值 在 编译 时 将 数组 初始 化 。 
1.1.5.3 ”使 用 数组 
典型 的 数组 处 理 代码 请 见 表 1.1.4。 在 声明 并 创建 数组 之 后 ， 在 代码 的 任何 地 方 都 能 通过 数组 
名 之 后 的 方 括号 中 的 索引 来 访问 其 中 的 元 素 。 数 组 一 经 创建 ， 它 的 大 小 就 是 固定 的 。 程 序 能 够 通过 
a.1ength 获取 数组 a[] 的 长 度 ， 而 它 的 最 后 一 个 元 素 总 是 a[a.1ength - 1]。Java 会 自动 进行 边 
界 检查 一 一 如 果 你 创建 了 一 个 大 小 为 N 的 数组 ， 但 使 用 了 一 个 小 于 0 或 者 大 于 N-1 的 索引 访问 它 ， 
程序 会 因为 运行 时 抛 出 ArrayIndexOutOfBoundsException 异常 而 终止 。 


Ed 


表 1.1.4 典型 的 数组 处 理 代码 


任 ” 务 实现 (代码 片段 ) 
找 出 数组 中 最 大 的 元 素 double max = a[0]; 


for (int 1 = 1; i < a.length; i++) 
if (a[i] > max) max = al[i]; 


计算 数组 元 素 的 平均 值 int N = a.length; 
double sum = 0.0; 
for (Cint i = 0; i < N; i++) 
sum += a[i]; 
double average = Sum / N; 


复制 数组 int N = a.length; 


double[] b = new double[N]; 
for Cint i = 0; i < N; i++) 


b[i] = al[lil]; 
颠倒 数组 元 素 的 顺序 int N = a.length; 
for Cint 1 = 0; i < N/2; i++) 


{ 
double temp = a[il]; 
a[i] = a[N-1-1] ; 
a[N-i-1] = temp; 
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( 续 ) 
任 ” 务 实现 代码 片段 ) 
和 矩阵 相 乘 ( 方 阵 ) int N = a.length; 
a[j[] * b[j[] = c[][] double[][] c = new double[N][N]; 


for (Cint 1 = 0; i < N; i++) 
for (Cint j = 0; j < N; j++) 
{ V/ 计算 行 i 和 列 j 的 点 乘 
for Cint k = 0; k < Ni k++) 
c[Lij[j] += a[li][kj*b[k][j]; 


1.1.5.4 ”起 别名 

请 注意 ， 数 组 名 表示 的 是 整个 数组 一 如 果 我 们 将 一 个 数组 变量 赋予 另 一 个 变量 ， 那 么 两 个 变 
量 将 会 指向 同一 个 数组 。 例 如 以 下 这 段 代 码 : 

int[] a = new int[N]; 

a[i] = 1234; 

int[] b = a; 

b[i] = 5678; // a[i] 的 值 也 会 变 成 5678 
这 种 情况 叫做 起 别名 ,有 时 可 能 会 导致 难以 察觉 的 问题 。 如果 你 是 想 将 数组 复制 一 份 ,那么 应 该 声明 、 
创建 并 初始 化 一 个 新 的 数组 ， 然 后 将 原 数 组 中 的 元 素 值 挨个 复制 到 新 数组 ， 如 表 1.1.4 的 第 三 个 例 
子 所 示 。 
1.1.5.5 “二 维 数组 

在 Java 中 三 维 数组 就 是 一 维 数组 的 数组 。 二 维 数组 可 以 是 参差 不 齐 的 〈 元 素数 组 的 长 度 可 以 不 
一 致 ) ,但 大 多 数 情况 下 ( 根据 合适 的 参数 M 和 NN ) 我 们 都 会 使 用 MxN， 即 M 行 长 度 为 的 数 
组 的 二 维 数组 (也 可 以 称 数组 含有 NN 列 ) 。 在 Java 中 访问 二 维 数组 也 很 简单 。 二 维 数组 a[] [] 的 
第 i 行 第 j 列 的 元 素 可 以 写作 a[i][j]。 声 明 二 维 数组 需要 两 对 方 括号 。 创 建 二 维 数组 时 要 在 类 型 
名 之 后 分 别 在 方 插 号 中 指定 行 数 以 及 列 数 ， 例 如 : 

double[][] a = new double[M][N]; 
我 们 将 这 样 的 数组 称 为 M x N 的 数组 。 我 们 约定 ,第 一 维 是 行 数 ,第 二 维 是 列 数 。 和 一 维 数组 一 样 ， 
Java 会 将 数值 类 型 的 数组 元 素 初 始 化 为 0， 将 布尔 型 的 数组 元 素 初始 化 为 false。 默 认 的 初始 化 对 
二 维 数 组 更 有 用 ， 因 为 可 以 节约 更 多 的 代码 。 下 面 这 段 代 码 和 刚才 只 用 一 行 就 完成 创建 和 初始 化 的 
语句 是 等 价 的 : 


double[][] a; 
a = new double[M][N]; 
for Cint i = 0; i < M; i++) 
for Cint j = 0; j < N; j++) 
a[li][j] = 0.0; 


19 在 将 二 维 数组 初始 化 为 0 时 这 段 代 码 是 多 余 的 ， 但 是 如 果 想 要 初始 化 为 其 他 值 ， 我 们 就 需要 级 
21 | 套 的 for 循环 了 。 


1.1.6 ”静态 方法 
本 书 中 的 所 有 Java 程序 要 么 是 数据 类 型 的 定义 ( 详 见 1.2 节 ) ,要 么 是 一 个 静态 方法 库 。 在 许 
多 语言 中 ， 静 态 方法 被 称 为 函数 ， 因 为 它们 和 数学 函数 的 性 质 类 似 。 静 态 方法 是 一 组 在 被 调用 时 会 
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被 顺序 执行 的 语句 。 修 饰 符 static 将 这 类 方法 和 1.2 节 的 实例 方法 区 别 开 来 。 当 讨论 两 类 方法 共 


有 的 属性 时 我 们 会 使 用 不 加 定语 的 方法 一 词 。 
1.1.6.1 静态 方法 
方法 封装 了 由 一 系列 语句 所 描述 的 运 
算 。 方 法 需要 参数 ( 某 种 数据 类 型 的 值 ) 并 
根据 参数 计算 出 某 种 数据 类 型 的 返回 值 ( 例 
如 数学 函数 的 结果 ) 或 者 产生 某 种 副作用 ( 例 
如 打印 一 个 值 ) 。BinarySearch 中 的 静态 函 
数 rankQ 是 前 者 的 一 个 例子 ; main() 则 是 
后 者 的 一 个 例子 。 每 个 静态 方法 都 是 由 签名 
(关键 字 public static 以 及 函数 的 返回 值 ， 
方法 名 以 及 一 串 各 种 类 型 的 参数 ) 和 函数 体 
( 即 包含 在 花 括 号 中 的 代码 ) 组 成 的 ， 如 图 
1.1.2 所 示 。 静 态 函 数 的 例子 请 见 表 1.1.5。 


院 
让 


\ 返回 值 类 型 方法 名 


public static ldoublellsqrt| (jdouble <|) 
{ 


Ky if (c < 0) return Double.NaN; 
局 测 ~ double err = le-15; 
double t|= c; 

孙 >|while I(Math.abs(t - c/t) 
Re t = Cc/t + t) 7/ 2.0; 


> err * t) 


表 1.1.5 典型 静态 方法 的 实现 


任 务 


return bg 
} Ve | 调用 另 一 个 方法 
图 1.1.2 静态 方法 解析 
实 现 


计算 一 个 整数 的 绝对 值 


public static int abs(int x) 


if (x < 0) return -x; 


else 


return x; 


计算 一 个 浮 点 数 的 绝对 值 


public static double abs(double x) 


if (x < 0.0) return -x; 


else 


return x; 


public static boolean isPrime(int N) 


if (N < 2) return false; 

for (int 1 = 2; i*i <= N; i++) 
if (N % 1 == 0) return false; 

return true; 


计算 平方 根 (牛顿 迭代 法 ) 


一 、 


public static double sqrt(double c) 
{ 


if (c < 0) return Double.NaN; 

double err = le-15; 

double 七 = Cc; 

while (Math.abs(t - c/t) > err * +t) 
t= (c/t + t) /2.0; 

return 七 ; 


} 


计算 直角 三 角形 的 斜 边 


public static double hypotenuse(double a, double b) 
{ return Math.sqrt(a*a + b*b); 了 


计算 调和 级 数 ( 请 见 表 1.4.5 ) 


public static double HCint N) 


double sum = 0.0; 
for (Cint 1 = 1; i <= N; i++) 
sum += 1.0 / ji; 


return Sum: 
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1.1.6.2 ”调用 静态 方法 
调用 静态 方法 的 方法 是 写 出 方法 名 并 在 后 面 的 括号 中 列 出 参数 值 ， 用 逗号 分 隔 。 当 调用 是 表达 
式 的 一 部 分 时 ， 方 法 的 返回 值 将 会 替代 表达 式 中 的 方法 调用 。 例 如 ，BinarySearch 中 调用 rankO) 
返回 了 一 个 int 值 。 仅 由 一 个 方法 调用 和 一 个 分 号 组 成 的 语句 一 般 用 于 产生 副作用 。 例 如 ， 
BinarySearch 的 main() 函数 中 对 系统 方法 Arrays.sort0) 的 调用 产生 的 副作用 ， 是 将 数组 中 的 所 
有 条 目 有 序 地 排列 。 调 用 方法 时 ， 它 的 参数 变量 将 被 初始 化 为 调用 时 所 给 出 的 相应 表达 式 的 值 。 返 
2 | 回 语句 将 结束 静态 方法 并 将 控制 权 交 还 给 调用 者 。 如 果 静 态 方法 的 目的 是 计算 某 个 值 ， 返 回 语句 应 
233 | 该 指定 这 个 值 (如 果 这 样 的 静态 方法 在 执行 完 所 有 的 语句 之 后 都 没有 返回 语句 ， 编 译 器 会 报错 ) 。 
1.1.6.3 方法 的 性 质 
对 方法 所 有 性 质 的 完整 描述 超出 了 本 书 的 范畴 ， 但 以 下 几 点 值得 一 提 。 
口 方法 的 参数 按 值 传递 : 在 方法 中 参数 变量 的 使 用 方法 和 局 部 变量 相同 ， 唯 一 不 同 的 是 参数 变 
量 的 初始 值 是 由 调用 方 提供 的 。 方 法 处 理 的 是 参数 的 值 ， 而 非 参数 本 身 。 这 种 方式 产生 的 
结果 是 在 静态 方法 中 改变 一 个 参数 变量 的 值 对 调用 者 没有 影响 。 本 书 中 我 们 一 般 不 会 修改 
参数 变量 。 值 传递 也 意味 着 数组 参数 将 会 是 原 数 组 的 别名 ( 见 1.1.5.4 节 ) 一 一 方法 中 使 用 
的 参数 变量 能 够 引用 调用 者 的 数组 并 改变 其 内 容 ( 只 是 不 能 改变 原 数 组 变量 本 身 ) 。 例 如 ， 
Arrays.sort() 将 能 够 改变 通过 参数 传递 的 数组 的 内 容 ， 将 其 排序 。 
口 方法 名 可 以 被 重 载 : 例如 ，Java 的 Math 包 使 用 这 种 方法 为 所 有 的 原始 数值 类 型 实现 了 
Math.abs()、Math.min() 和 Math.max() 函数 。 重 载 的 另 一 种 常见 用 法 是 为 函数 定义 两 个 
版 本 ， 其 中 一 个 需要 一 个 参数 而 另 一 个 则 为 该 参数 提供 一 个 默认 值 。 
口 方法 只 能 返回 一 个 值 ， 但 可 以 包含 多 个 返回 语句 : 一 个 Java 方 法 只 能 返回 一 个 值 ， 它 的 类 
型 是 方法 签名 中 声明 的 类 型 。 静 态 方 法 第 一 次 执行 到 一 条 返回 语句 时 控制 权 将 会 回 到 调用 代 
码 中 。 尽 管 可 能 存在 多 条 返回 语句 ， 任 何 静态 方法 每 次 都 只 会 返回 一 个 值 ， 即 被 执行 的 第 一 
条 返回 语句 的 参数 。 
口 方法 可 以 产生 副作用 : 方法 的 返回 值 可 以 是 void， 这 表示 该 方法 没有 返回 值 。 返 回 值 为 
void 的 静态 函数 不 需要 明确 的 返回 语句 ， 方 法 的 最 后 一 条 语句 执行 完毕 后 控制 权 将 会 返回 
给 调用 方 。 我 们 称 void 类 型 的 静态 方法 会 产生 副作用 ( 接受 输入 、 产 生 输 出 、 修 改 数 组 或 
者 改变 系统 状态 ) 。 例 如 ， 我 们 的 程序 中 的 静态 方法 mainQ 的 返回 值 就 是 void， 因 为 它 


37 的 作用 是 向 外 输出 。 技 术 上 来 说 ， 数 学 方法 的 返回 值 都 不 会 是 void ( Math.random() 虽然 


不 接受 参数 但 也 有 返回 值 ) 。 

2.1 节 所 述 的 实例 方法 也 拥有 这 些 性 质 ， 尽 管 两 者 在 副作用 方面 大 为 不 同 。 
1.1.6.4 ”递归 

方法 可 以 调用 自己 〈 如 果 你 对 递归 概念 感到 奇怪 ， 请 完成 练习 1.1.16 到 练习 1.1.22 ) 。 例 如 ， 
下 面 给 出 了 BinarySearch 的 rankQ 方法 的 另 一 种 实现 。 我 们 会 经 常 使 用 递归 ， 因 为 递归 代码 比 
相应 的 非 递归 代码 更 加 简洁 优雅 、 易 懂 。 下 面 这 种 实现 中 的 注释 就 言 简 意 赎 地 说 明了 代码 的 作用 。 
我 们 可 以 用 数学 归纳 法 证 明 这 段 注释 所 解释 的 算法 的 正确 性 。 我 们 会 在 3.1 节 中 展开 这 个 话题 并 为 
二 分 查找 提供 一 个 这 样 的 证 明 。 

编写 递归 代码 时 最 重要 的 有 以 下 三 点 。 
口 递归 总 有 一 个 最 简单 的 情况 一 一 方法 的 第 一 条 语句 总 是 一 个 包含 return 的 条 件 语句 。 
口 递归 调用 总 是 去 尝试 解决 一 个 规模 更 小 的 子 问题 ， 这 样 递归 才能 收敛 到 最 简单 的 情况 。 在 下 

面 的 代码 中 ， 第 四 个 参数 和 第 三 个 参数 的 差 值 一 直 在 缩小 。 
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口 递归 调用 的 父 问题 和 尝试 解决 的 子 问题 之 间 不 应 该 有 交集 。 在 下 面 的 代码 中 ， 两 个 子 问题 各 
自 操作 的 数组 部 分 是 不 同 的 。 


public static int rank(int key, int[] a) 
{ return rank(key, a, 0, a.length - 1); 了 


pubilmeestatle inerrant a ne 
{ // 如 果 Kkey 存 在 于 a[] 中 ， 它 的 索引 不 会 小 于 10 且 不 会 大 于 hi 


nilon Sh eturn 
nm oh /2 


a (key < a[mid]) return rank(key, a, 1o, mid - 1); 
else if (key > a[mid]) return rank(key, a, mid + 1, hi); 
else return mid; 
小 
二 分 查找 的 递归 实现 5 


违背 其 中 任意 一 条 都 可 能 得 到 错误 的 结果 或 是 低 效 的 代码 ( 见 练习 1.1.19 和 练习 1.1.27 ) ,而 
坚持 这 些 原 则 能 写 出 清晰 、 正 确 且 容易 评 佑 性 能 的 程序 。 使 用 递归 的 另 一 个 原因 是 我 们 可 以 使 用 数 
学 模型 来 估计 程序 的 性 能 。 我 们 会 在 3.2 节 的 二 分 查找 以 及 其 他 几 个 地 方 分 析 这 个 问题 。 
1.1.6.5 ”基础 编程 模型 

静态 方法 库 是 定义 在 一 个 Java 类 中 的 一 组 静态 方法 。 类 的 声明 是 public class 加 上 类 名 ， 以 
及 用 花 括 号 包含 的 静态 方法 。 存 放 类 的 文件 的 文件 名 和 类 名 相同 ， 扩 展 名 是 .java。Java 开发 的 基本 
模式 是 编写 一 个 静态 方法 库 ( 包含 一 个 main(0) 方法 ) 来 完成 一 个 任务 。 输 入 java 和 类 名 以 及 一 系 
列 字符 串 就 能 调用 类 中 的 mainQ 方法 ， 其 参数 为 由 输入 的 字符 串 组 成 的 一 个 数组 。mainQ 的 最 后 
一 条 语句 执行 完毕 之 后 程序 终止 。 在 本 书 中 ， 当 我 们 提 到 用 于 执行 一 项 任务 的 Java 程序 时 ， 我 们 指 
的 是 用 这 种 模式 开发 的 代码 ( 可 能 还 包括 对 数据 类 型 的 定义 ， 如 1.2 节 所 示 ) 。 例 如 ，BinarySearch 
就 是 一 个 由 两 个 静态 方法 rankGO 和 mainQ 组 成 的 Java 程序 ， 它 的 作用 是 将 输入 中 所 有 不 在 通过 
命令 行 指定 的 白 名 单 中 的 数字 打印 出 来 。 
1.1.6.6 ”模块 化 编程 

这 个 模型 的 最 重要 之 处 在 于 通过 静态 方法 库 实现 了 模块 化 编程 。 我 们 可 以 构造 许多 个 静态 方法 
库 ( 模块) ,一 个 库 中 的 静态 方法 也 能 够 调用 男 一 个 库 中 定义 的 静态 方法 。 这 能 够 带 来 许多 好 处: 
口 程序 整体 的 代码 量 很 大 时 ， 每 次 处 理 的 模块 大 小 仍然 适中 ; 

口 可 以 共享 和 重用 代码 而 无 需 重新 实现 ; 

口 很 容易 用 改进 的 实现 替换 老 的 实现 ; 

口 可 以 为 解决 编程 问题 建立 合适 的 抽象 模型 ; 

口 缩小 调试 范围 (请 见 1.1.6.7 节 关 于 单元 测试 的 讨论 ) 。 

例如 ，BinarySearch 用 到 了 三 个 独立 的 库 ， 即 我 们 的 StdOut 和 StdIn 以 及 Java 的 Arrays， 而 这 
三 个 库 又 分 别 用 到 了 其 他 的 库 。 

1.1.6.7 ”单元 测试 

Java 编程 的 最 佳 实践 之 一 就 是 每 个 静态 方法 库 中 都 包含 一 个 main() 函数 来 测试 库 中 的 所 有 方 
法 (有 些 编程 语言 不 支持 多 个 main0 方法 ， 因 此 不 支持 这 种 方式 ) 。 恰 当 的 单元 测试 本 身 也 是 很 
有 挑战 性 的 编程 任务 。 每 个 模块 的 main( 方法 至 少 应 该 调用 模块 中 的 其 他 代码 并 在 某 种 程度 上 保 
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20 


27 


证 它 的 正确 性 。 随 着 模块 的 成 熟 ， 我 们 可 以 将 mainQ 〇 方法 作为 一 个 开发 用 例 ， 在 开发 过 程 中 用 它 
来 测试 更 多 的 细节 ; 也 可 以 把 它 编 成 一 个 测试 用 例 来 对 所 有 代码 进行 全 面 的 测试 。 当 用 例 越 来 越 复 


杂 时 ， 我 们 可 能 会 将 它 独 立成 一 个 模块 。 在 本 书 中 ， 我 们 用 mainQ 来 说 明 模块 的 功能 并 将 测试 


例 留 做 练习 。 
1.1.6.8 ”外 部 库 


我 们 会 使 用 来 自 4 个 不 同类 型 的 库 


FP 的 静态 方法 ,重用 每 种 库 代 码 的 方式 都 稍 有 不 同 。 它 们 大 


多 都 是 静态 方法 库 , 但 也 有 部 分 是 数据 类 型 的 定义 并 包含 了 一 些 静 态 方法 。 


口 系统 标准 库 java.lang.*: 这 其 中 包括 Math 库 ， 实现 了 常用 的 数学 函数 ; Integer 和 Double 库 ， 


能 够 将 字符 串 转 化 为 int 和 double 值 ，String 和 StringBuilder 库 ， 我 们 稍 后 会 在 本 节 和 第 


5 章 中 详细 讨论 ; 
口 导入 的 系统 库 ， 例 如 java.util.Arrays: 每 个 标准 的 Java 版 本 中 都 含有 上 千 个 这 种 类 型 的 库 ， 
不 过 本 书 中 我 们 用 到 的 并 不 多 。 要 在 程序 的 玫 


以 及 其 他 一 些 我 们 没有 用 到 的 库 。 


们 也 是 这 样 做 的 ) 。 


发 的 标准 库 Std*: 我 们 会 在 下 面 简要 地 介绍 这 些 库 ， 它 


们 的 源 代 码 和 使 


| 方法 都 能 够 在 本 书 的 网 站 上 找到 。 


要 调用 男 一 个 库 中 的 方法 (存放 在 相同 或 者 指定 的 目录 中 ， 
或 是 一 个 系统 标准 库 , 或 是 在 类 定义 前 用 import 语 句 导 入 的 库 )， 


我 们 需要 在 方法 前 指 


定 库 的 名 称 。 例 如 ，BinarySearch 的 


main() 方法 调用 了 系统 库 java.util.Arrays 的 sort() 方法 ,我 
们 的 库 In 中 的 readInts 0 方法 和 StdOut 库 中 的 println0) 


方法 。 


我 们 自己 及 他 人 使 用 模块 化 方式 编写 的 方法 库 能 够 极 大 地 扩 
展 我 们 的 编程 模型 .除了 在 Java 的 标准 版 本 中 可 用 的 所 有 库 之 外 ， 


网 上 还 有 成 千 上 万 各 种 


制 在 一 个 可 控 范 围 之 内 ， 


j 途 的 代码 库 。 为 了 将 我 们 的 编程 模型 限 
以 将 精力 集中 在 算法 上 ， 我们 只 会 使 用 


以 下 所 示 的 方法 库 ， 并 在 1.1.7 节 中 列 出 了 其 中 的 部 分 方法 。 


1.1.7 API 


模块 化 编程 的 一 个 重要 组 成 部 分 就 是 记录 库 方法 的 用 法 并 供 


F 头 使 用 import 语句 导入 才能 使 用 这 些 库 (我 


口 本 书 中 的 其 他 库 : 例如 ， 其 他 程序 也 可 以 使 用 BinarySearch 的 rank0) 方法 。 要 使 用 这 些 库 ， 
请 在 本 书 的 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 中 。 

口 我 们 为 本 书 ( 以 及 我 们 的 男 一 本 入 门 教材 An Introduction 
to Programming in Java: An Interdisciplinary Approach ) 开 


系统 标准 库 
Math 
Integer' 
Double’ 
String' 
StringBuilder 
System 
导入 的 系统 库 
Java.util.Arrays 
我 们 的 标准 库 
StdIn 
StdOut 
StdDraw 
StdRandom 
StdStats 
Im 
Out' 
含有 静态 方法 的 数据 类 型 的 定义 


本 书 使 用 的 含有 静态 方法 的 库 


其 他 人 参考 的 文档 。 我 们 会 统一 使 


用 应 用 程序 编程 接口 (API ) 的 方式 列 出 本 书 中 使 用 的 每 个 库 方 法 名 称 、 签 名 和 简短 的 描述 。 我 们 


1.1.7.1 举例 


在 表 1.1.6 的 例子 中 ， 我 们 用 java.lang 中 Math 库 常 


j 用 例 来 指 代 调 用 另 一 个 库 中 的 方法 的 程序 ， 用 实现 描述 实现 了 某 个 API 方 法 的 Java 代码 。 


] 的 静态 方法 说 明 API 的 文档 格式 。 


这 些 方 法 实现 了 各 种 数学 函数 一 一 它们 通过 参数 计算 得 到 某 种 类 型 的 值 ( random() 除外 ， 它 
没有 对 应 的 数学 函数 ， 因 为 它 不 接受 参数 ) 。 它 们 的 参数 都 是 double 类 型 目 返 回 值 也 都 是 double 


类 型 ， 因 此 可 以 将 它们 看 做 double 数据 类 型 的 扩展 一 一 这 种 扩展 的 能 力 正 是 现代 编程 语言 的 特性 


之 二 5 
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API 中 的 每 一 行 描述 了 一 个 方法 ， 提 供 了 使 用 该 方法 所 需要 知道 的 所 有 信息 。Math 库 也 定义 


了 常数 PI( 圆周率 下 ) 和 E( 自然 对 数 e ) , 你 可 以 在 自 


,的 程序 中 通过 这 些 变 量 名 引用 它们 。 例如 ， 


Math.sin(CMath.PI/2) 的 结果 是 1.0，Math.1og (Math.E) 的 结果 也 是 1.0 (因为 Math.sin() 的 


参数 是 弧度 而 Math .10gQ 使 用 的 是 自然 对 数 函 数 ) 。 
表 1.1.6 Java 的 数学 函数 库 的 APIl (节选 ) 

public class Math 
static double abs(double a) a 的 绝对 值 
static double max(double a, double b) a 和 。 中 的 较 大 者 
static double min(double a, double b) a 和 5。 中 的 较 小 者 
注 1: abs()、maxQ 和 min() 也 定义 了 int、1ong 和 float 的 版 本 。 
static double sin(double theta) 正弦 函数 
static double cos(double theta) 余弦 函数 
static double tan(double theta) 正切 函数 
注 2: 角 用 弧度 表示 ， 可 以 使 用 toDegrees() 和 toRadians() 转换 角度 和 弧度 。 


注 3: 它们 的 反 函 数 分 别 为 asin()、acos() 和 atan()。 

static double exp(double a) 指数 函数 (@") 

static double log(double a) 自然 对 数 函 数 (log.a,， 即 Ina) 

static double pow(double a, double b) 求 a 的 bp 次 方 (a) 

static double random() [0, 1) 之 间 的 随机 数 

static double sqrt(double a) a 的 平方 根 

static double E 常数 e (常数 ) 

static double PI 常数 nT (常数 ) 28 

其 他 函数 请 见 本 书 的 网 站 。 
1.1.7.2 ”Java 库 

成 千 上 万 个 库 的 在 线 文档 是 Java 发 布 版 本 的 一 部 分 。 为 了 更 好 地 描述 我 们 的 编程 模型 ， 我 们 只 
是 从 中 节选 了 本 书 所 用 到 的 者 干 方法 。 例 如 ，BinarySearch 中 用 到 了 Java 的 Arrays 库 中 的 sortQ 
方法 ,我 们 对 它 的 记录 如 表 1.1.7 所 示 。 

表 1.1.7 Java 的 Arrays 库 节选 (java.util.Arrays) 
public class Arrays 
static void sort(int[] a) 将 数组 按 升序 排序 

注 : 其 他 原始 类 型 和 0bject 对 象 也 有 对 应 版 本 的 方法 。 

Arrays 库 不 在 java.lang 中 ， 因 此 我 们 需要 用 import 语句 导入 后 才能 使 用 它 ， 与 BinarySearch 
中 一 样 。 事 实 上 ， 本 书 的 第 2 章 讲 的 正 是 数组 的 各 种 sort 0) 方法 的 实现 ， 包 括 Arrays.sort() 中 
实现 的 归并 排序 和 快速 排序 算法 。Java 和 很 多 其 他 编程 语言 都 实现 了 本 书 讲解 的 许多 基础 算法 。 例 
如 ，Arrays 库 还 包含 了 二 分 查找 的 实现 。 为 避免 混淆 ， 我 们 一 般 会 使 用 自己 的 实现 ,但 对 于 你 已 经 
掌握 的 算法 使 用 高 度 优化 的 库 实现 当然 也 没有 任何 问题 。 


1.1.7.3 “我们 的 标准 库 


为 了 介绍 Java 编程 、 为 了 科学 计算 以 及 算法 的 开发 、 学 习 和 应 
一 些 实用 的 功能 。 这 些 库 大 多 


 ， 我 们 也 开发 了 若干 库 来 提供 


] 于 人 处理 输入 输出 。 我 们 也 会 使 用 以 下 两 个 库 来 测试 和 分 析 我 们 的 实 
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现 。 第 一 个 库 扩展 了 Math.random() 方法 ( 见 表 1.1.8 ) ， 以 根据 不 同 的 概率 密度 函数 得 到 随机 值 ; 


第 二 个 库 则 支持 各 种 统计 计算 ( 见 表 1.1.9 ) 。 


表 1.1.8 我 们 的 随机 数 静 态 方法 库 的 API 


public class StdRandom 


Static void setSeed(long seed) 

static double random() 

static int uniformCint N) 

static int uniformCint lo, int hi) 
static double uniform(double lo, double hi) 
static boolean bernoulli(double p) 

static double gaussian() 

static double gaussian(double m, double s) 
static int discrete(double[] a) 

static void shuffle(double[] a) 


设置 随机 生成 器 的 种 子 
0 到 工 之 间 的 实数 
0 到 N-1 之 间 的 整数 


1o 到 hi-1 之 间 


的 整数 


1o 到 hi 之 间 的 实数 


返回 真 的 概率 为 
正 态 分 布 ， 期 望 
正 态 分 布 ， 期 望 
返回 i 的 概率 为 
将 数组 a 随机 排 


注 : 库 中 也 包含 为 其 他 原始 类 型 和 0bject 对 象 重 载 的 shuffle() 函数 。 


表 1.1.9 我 们 的 数据 分 析 静 态 方法 库 的 API 


public class StdStats 


p 

值 为 0， 标 准 差 为 1 
值 为 m， 标 准 差 为 s 
a[ji] 


static double max(double[] a) 
static double min(double[] a) 
static double mean(double[] a) 
static double var(double[] a) 
static double stddev(double[] a) 
static double median(double[] a) 


最 大 值 
最 小 值 
平均 值 
采样 方差 
采样 标准 关 
中 位 数 


StdRandom 的 setSeed() 方法 为 随机 数 生成 器 提供 种 子 ， 这 样 我 们 就 可 以 重复 和 随机 数 有 关 


的 实验 。 以 上 一 些 方法 的 实现 请 参考 表 1.1.10。 有 些 方法 的 实现 非常 简单 ， 为 什么 还 要 在 方法 库 中 


实现 它们 ? 设计 良好 的 方法 库 对 这 个 问题 的 标准 回答 如 下 。 


口 这 些 方法 所 实现 的 抽象 层 有 助 于 我 们 将 精力 集中 在 实现 和 测试 本 书 中 的 算法 ， 而 非 生 成 随机 


数 或 是 统计 计算 。 每 次 都 自己 写 完成 相同 计算 的 代码 ， 不 如 直接 在 用 例 中 调用 它们 要 更 简洁 


易 懂 。 


口 方法 库 会 经 过 大 量 测试 ， 有 覆盖 极端 和 罕见 的 情况 ， 是 我 们 可 以 信任 的 。 这 样 的 实现 需要 大 量 
的 代码 。 例 如 ， 我 们 经常 需要 使 用 的 各 种 数据 类 型 的 实现 ， 又 比如 Java 的 Arrays 库 针 对 不 


同 数据 类 型 对 sort O 进行 了 多 次 重 载 。 


这 
其 


java 和 StdStats.java 的 源 代码 并 好 好 利用 这 些 经 过 验证 了 的 实现 。 使 


简单 的 方法 就 是 从 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 
它们 的 配置 日 录 的 方法 。 


些 是 Java 模块 化 编程 的 基础 ,不 过 在 这 里 可 能 有 些 夸 张 。 但 这 些 方法 库 的 方法 名 称 简单 .实现 容易 ， 
中 一 些 仍然 能 作为 有 趣 的 算法 练习 。 因 此 ， 我 们 建议 你 到 本 书 的 网 站 上 去 学 习 一 下 StdRandom. 


] 这 些 库 ( 以 及 检验 它们 ) 最 
目录 。 网 站 上 讲解 了 在 各 种 系统 上 使 用 
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表 1.1.10 StdRandom 库 中 的 静态 方法 的 实现 


期 望 的 结果 实 现 


随机 返回 [a,b) 之 间 的 一 个 double 值 public static double uniform(double a, double b) 
{ return a + StdRandom.random() * (b-a); } 


随机 返回 [0. .N) 之 间 的 一 个 int 值 public static int uniform(Cint N) 
{ return (int) (StdRandom.random() * N); } 


随机 返回 [1o,hi) 之 间 的 一 个 int 值 public static int uniform(Cint lo, int hi) 
{ return lo + StdRandom.uniform(hi - 10); } 


public static int discrete(double[] a) 
{ // a[] 中 各 元 素 之 和 必须 等 于 1 
double r = StdRandom.random(); 
double sum 0:0; 
for (Cint i 0; i < a.length; i++) 


{ 


根据 离散 概率 随机 返回 的 int 值 (出 现 i 
的 概率 为 a[i] ) 


sum = sum + a[i]; 

if (sum >= r) return Ti; 
} 
return -1; 


} 


public static void shuffle(double[] a) 
{ 
int N = a.length; 
for (Cint i = 0; i < N; i++) 
{ // 将 a[i] 和 al[i..N-1] 中 任意 一 个 元 素 交 换 
int r = i + StdRandom.uniform(N-i); 


随机 将 double 数组 中 的 元 素 排序 ( 请 见 


练习 

练习 1.1.36 ) double temp = a[i]; 
a[i] = a[r]; 
a[r] = temp; 


1.1.7.4 你 自己 编写 的 库 

你 应 该 将 自己 编写 的 每 一 个 程序 都 当做 一 个 日 后 可 以 重用 的 库 。 
口 编写 用 例 ， 在 实现 中 将 计算 过 程 分 解 成 可 控 的 部 分 。 
口 明确 静态 方法 库 和 与 之 对 应 的 API (或 者 多 个 库 的 多 个 API ) 。 
口 实现 API 和 一 个 能 够 对 方法 进行 独立 测试 的 mainQ 函数 。 


这 种 方法 不 仅 能 帮助 你 实现 可 重用 的 代码 ， 而 且 能 够 教会 你 如 何 运 用 模块 化 编程 来 解决 一 个 复 |31 
林 的 问题 。 8 


API 的 目的 是 将 调用 和 实现 分 离 : 除了 API 中 给 出 的 信息 ,调用 者 不 需要 知道 实现 的 其 他 细节 ， 
而 实现 也 不 应 考虑 特殊 的 应 用 场景 。API 使 我 们 能 够 广泛 地 重用 那些 为 各 种 目的 独立 开发 的 代码 。 
没有 任何 一 个 Java 库 能 够 包含 我 们 在 程序 中 可 能 用 到 的 所 有 方法 ， 因 此 这 种 能 力 对 于 编写 复杂 的 应 
用 程序 特别 重要 。 相 应 地 ， 程 序 员 也 可 以 将 API 看 做 调用 和 实现 之 间 的 一 份 契 约 ， 它 详细 说 明了 每 
个 方法 的 作用 。 实 现 的 目标 就 是 能 够 遵守 这 份 契 约 。 一 般 来 说 ， 做 到 这 一 点 有 很 多 种 方法 ， 而 且 将 
调用 者 的 代码 和 实现 的 代码 分 离 使 我 们 可 以 将 老 算法 替换 为 更 新 更 好 的 实现 。 在 学 习 算法 的 过 程 中 ， 


这 也 使 我 们 能 够 感受 到 算法 的 改进 所 带 来 的 影响 。 33 
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1.1.8 字符 串 

字符 串 是 由 一 串 字 符 (char 类 型 的 值 ) 组 成 的 。 一 个 String 类 型 的 字面 量 包括 一 对 双 引 号 和 
其 中 的 字符 , 比如 "Hel11o，Wor1d"。String 类 型 是 Java 的 一 个 数据 类 型 , 但 并 不 是 原始 数据 类 型 。 
我 们 现在 就 讨论 String 类 型 是 因为 它 非常 基础 ， 几 乎 所 有 Java 程序 都 会 用 到 它 。 
1.1.8.1 字符 串 拼接 

和 各 种 原始 数据 类 型 一 样 ，Java 内 置 了 一 个 串联 String 类 型 字符 串 的 运算 符 (+ ) 。 表 1.1.11 
是 对 表 1.1.2 的 补充 。 拼 接 两 个 String 类 型 的 字符 串 将 得 到 一 个 新 的 String 值 ， 其 中 第 一 个 字符 
串 在 前 ， 第 二 个 字符 串 在 后 。 


表 1.1.11 Java 的 String 数据 类 型 


表达 式 举例 
类 型 值 域 举 例 运算 符 
六 表 达 式 什 
String ”一 申 字 符 。 "AB" + (拼接 ) "Hi," + "Bob" "Hi, Bob" 
a Rl er 
| en 


1.1.8.2 ”类 型 转换 

字符 串 的 两 个 主要 用 途 分 别 是 将 用 户 从 键盘 输入 的 内 容 转 换 成 相应 数据 类 型 的 值 以 及 将 各 种 数 
据 类 型 的 值 转化 成 能 够 在 屏幕 上 显示 的 内 容 。Java 的 String 类 型 为 这 些 操 作 内 置 了 相应 的 方法 ， 
而 且 Integer 和 Double 库 还 包含 了 分 别 和 String 类 型 相互 转化 的 静态 方法 ( 见 表 1.1.12 ) 。 


表 1.1.12 ” String 值 和 数字 之 间 相 互 转换 的 API 


public class Integer 


static int parseInt(String s) 将 字符 串 s 转换 为 整数 
等 


static String toString(int i) 将 整数 i 转换 为 字符 串 


public class Double 


static double parseDouble(String s) 将 字符 串 s 转换 为 浮 点 数 
static String toString(double x) 将 浮 点 数 x 转换 为 字符 串 
1.1.8.3 ”自动 转换 


我 们 很 少 明确 使 用 刚才 提 到 的 toString( 方法 ， 因 为 Java 在 连接 字符 串 的 时 候 会 自动 将 任 
意 数 据 类 型 的 值 转换 为 字符 串 ， 如 果 加 号 (+) 的 一 个 参数 是 字符 串 ， 那 么 Java 会 自动 将 其 他 参 
数 都 转换 为 字符 串 ( 如 果 它 们 不 是 的 话 ) 。 除 了 像 "The square root of 2.0 is " + Math. 
sqrt(2.0) 这 样 的 使 用 方式 之 外 ， 这 种 机 制 也 使 我 们 能 够 通过 一 个 空 字符 串 "" 将 任意 数据 类 型 的 
值 转换 为 字符 串 值 。 
1.1.8.4 ”命令 行 参数 

在 Java 中 字符 串 的 一 个 重要 的 用 途 就 是 使 程序 能 够 接收 到 从 命令 行 传递 来 的 信息 。 这 种 机 制 很 
简单 。 当 你 输入 命令 java 和 一 个 库 名 以 及 一 系列 字符 串 之 后 ，Java 系统 会 调用 库 的 main() 方法 
并 将 那 一 系列 字符 串 变 成 一 个 数组 作为 参数 传递 给 它 。 例 如 ，BinarySearch 的 main() 方法 需要 一 
个 命令 行 参数 ， 因 此 系统 会 创建 一 个 大 小 为 1 的 数组 。 程 序 用 这 个 值 ， 也 就 是 args[0] ， 来 获取 白 
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名 单 文件 的 文件 名 并 将 其 作为 StdIn.readInts() 的 参数 。 另 一 种 在 我 们 的 代码 中 常见 的 用 法 是 当 
命令 行 参 数 表 示 的 是 数字 时 ， 我 们 会 用 parseInt() 和 parseDoubleQ 方法 将 其 分 别 转换 为 整数 
和 浮 点 数 。 

字符 串 的 用 法 是 现代 程序 中 的 重要 部 分 。 现 在 我 们 还 只 是 用 String 在 外 部 表示 为 字符 串 的 数 
字 和 内 部 表示 为 数字 类 数据 类 型 的 值 进行 转换 。 在 1.2 节 中 我 们 会 看 到 Java 为 我 们 提供 了 非常 丰富 
的 字符 串 操 作 ; 在 1.4 节 中 我 们 会 分 析 String 类 型 在 Java 内 部 的 表示 方法 ; 在 第 5 章 我 们 会 深入 


学 习 处 理 字 符 串 的 各 种 算法 。 这 些 算 法 是 本 书 中 最 有 趣 、 最 复杂 也 是 影响 力 最 大 的 一 部 分 算法 。 3 


1.1.9 ”输入 输出 

我 们 的 标准 输入 、 输 出 和 绘图 库 的 作用 是 建立 一 个 Java 程序 和 外 界 交流 的 简易 模型 。 这 些 库 的 
基础 是 强大 的 Java 标准 库 ， 但 它们 一 般 更 加 复杂 ， 学习 和 使 用 起 来 都 更 加 困难 。 我 们 先 来 简单 地 了 
解 一 下 这 个 模型 。 

在 我 们 的 模型 中 ，Java 程序 可 以 从 命令 行 参数 或 者 一 个 名 为 标准 输入 流 的 抽象 字符 流 中 获得 输 
入 ， 并 将 输出 写 入 另 一 个 名 为 标准 输出 流 的 字符 流 中 。 

我 们 需要 考虑 Java 和 操作 系统 之 间 的 接口 ， 因 此 我 
们 要 简要 地 讨论 一 下 大 多 数 操作 系统 和 程序 开发 环境 所 标准 输入 
提供 的 相应 机 制 。 本 书 网 站 上 列 出 了 关于 你 所 使 用 的 系 
统 的 更 多 信息 。 默 认 情 况 下 ,命令 行 参 数 、 标 准 输入 和 
标准 输出 是 和 应 用 程序 绑 定 的 ， 而 应 用 程序 是 由 能 够 接 本 
受命 令 输入 的 操作 系统 或 是 开发 环境 所 支持 。 我 们 笼统 人 
地 用 终端 来 指 代 这 个 应 用 程序 提供 的 供 输入 和 显示 的 窗 全 和 
口 。20 世纪 70 年 代 时 期 的 Unix 系统 已 经 证 明 我 人 可以。 XiD | 人 
用 这 个 模型 方便 直接 地 和 程序 以 及 数据 进行 交互 。 我 们 二 
在 经 典 的 模型 中 加 入 了 一 个 标准 绘图 模块 用 来 可 视 化 表 
示 对 数据 的 分 析 ， 如 图 1.1.3 所 示 。 图 1.1.3 Java 程序 整体 结构 
1.1.9.1 命令 和 参数 

终端 窗口 包含 一 个 提示 符 ， 通 过 它 我 们 能 够 向 操作 系统 输入 命令 和 参数 。 本 书 中 我 们 只 会 用 到 
几 个 命令 , 如 表 1.1.13 所 示 。 我 们 会 经 常 使 用 java 命令 来 运行 我 们 的 程序 。 我 们 在 1.1.8.4 节 中 提 到 过 ， 
Java 类 都 会 包含 一 个 静态 方法 main()， 它 有 一 个 String 数组 类 型 的 参数 args[] 。 这 个 数组 的 内 
容 就 是 我 们 输入 的 命令 行 参数 ,操作 系统 会 将 它 传递 给 Java。Java 和 操作 系统 都 默认 参数 为 字符 串 。 
如 果 我 们 需要 的 某 个 参数 是 数字 ， 我 们 会 使 用 类 似 Integer .parseInt() 的 方法 将 其 转换 为 适当 的 
数据 类 型 的 值 。 图 1.1.4 是 对 命令 的 分 析 。 


表 1.1.13 操作 系统 常用 命令 


命 令 参 数 作 用 

javac java 文件 名 编译 Java 程序 

java .class 文件 名 (不 需要 扩展 名 ) 运行 Java 程序 
和 命令 行 参 数 


more 任意 文本 文件 名 打印 文件 内 容 元 
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1.1.9.2 ”标准 输出 

我 们 的 Stdout 库 的 作用 是 支持 标准 输出 。 一 般 
来 说 ， 系 统 会 将 标准 输出 打印 到 终端 窗口 。print() 
方法 会 将 它 的 参数 放 到 标准 输出 中 ; print1nQ 方法 
会 附加 一 个 换行 符 ; printf() 方法 能 够 格式 化 输出 


( 见 1.1.9.3 节 
似 的 方法 ， 


) 。Java 在 其 System.out 库 中 提供 了 类 


且 我 们 会 用 StdOut 库 来 统一 处 理 标 准 输 


入 和 输出 (并 进行 了 一 些 技术 上 的 改进 ) , 见 表 1.1.14。 


提示 


调用 RandomSeq 中 
的 静态 方法 main() 


吕 
~、 


|% java RandomSeq 5 100.0 200.0 


args[0] 
args[1] 
args[2] 


调用 Java 


图 1.1.4 命令 详解 


表 1.1.14 我 们 的 标准 输出 库 的 静态 方法 的 API 


public class StdOut 


static 
static 
static 


static 


void print(String s) 
void println(CString s) 
void println0) 


void printf(String f, ...) 


注 : 其 他 原始 类 型 和 0bject 对 象 也 有 对 应 版 本 的 方法 。 


打印 s 

打印 s 并 接 一 个 换行 符 
打印 一 个 换行 符 
格式 化 输出 


要 使 用 这 些 方法 ， 请 从 本 书 的 网 站 上 将 StdOutjava 下 载 到 你 的 工作 目录 ， 并 像 Std0ut .println 
("He110，Wor1d"); 这 样 在 代码 中 调用 它们 。 左 下 方 的 程序 就 是 一 个 例子 。 
1.1.9.3 ”格式 化 输出 
在 最 简单 的 情况 下 printfQ 方法 接受 两 个 参数 。 第 一 个 参数 是 一 个 格式 字符 串 ， 描 述 了 第 二 


个 参数 应 该 如 何在 输出 


被 转换 为 一 个 字符 串 。 最 简单 的 格式 字符 串 的 第 一 个 字符 是 % 并 紧 跟 一 个 


字符 表示 的 转换 代码 。 我 们 最 常 使 用 的 转换 代码 包括 d ( 用 于 Java 整 型 的 十 进 制 数 ) 、f ( 浮 点 型 ) 


public class RandomSeq 


{ 


public static void main(String[] args) 
{ // 打印 N 个 (10，hi) 之 间 的 随机 值 


int N 


= Integer.parseInt(args[0]); 


double lo = Double.parseDouble(args[1]); 
double hi = Double.parseDouble(args[2]); 
Fomine 0 < Ne 


double x = StdRandom.uniform(1o, hi); 
SkaqOu prt 2 Nn 


} 


% java RandomSeq 5 100.0 200.0 


123.43 
L53513 
144.38 
L55318 
104.02 


Stdout 的 用 例 示例 


和 s (字符 串 ) 。 在 % 和 转换 代码 之 
间 可 以 插入 一 个 整数 来 表示 转换 之 后 
的 值 的 宽度 ， 即 输出 字符 串 的 长 度 。 
默认 情况 下 ， 转 换 后 会 在 字符 串 的 左 
边 添 加 空格 以 达到 需要 的 宽度 ， 如 果 
我 们 想 在 右边 加 入 空格 则 应 该 使 用 负 
宽度 (如果 转 换 得 到 的 字符 串 比 设 定 
宽度 要 长 ， 宽 度 会 被 忽略 ) 。 在 宽度 
之 后 我 们 还 可 以 插入 一 个 小 数 点 以 
及 一 个 数值 来 指定 转换 后 的 double 
值 保留 的 小 数位 数 ( 精度 ) 或 是 
String 字符 串 所 截取 的 长 度 。 使 用 


printf() 方法 时 需要 记 住 的 最 重要 的 一 点 就 是 ， 格 式 


字符 串 中 的 转换 代码 和 对 应 参数 的 数据 类 型 必须 匹配 。 
也 就 是 说 ，Java 要 求 参 数 的 数据 类 型 和 转换 代码 表示 
的 数据 类 型 必须 相同 。printfQ 的 第 一 个 String 字 
符 串 参数 也 可 以 包含 其 他 字符 。 所 有 非 格式 字符 串 的 
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字符 都 会 被 传递 到 输出 之 中 , 而 格式 字符 串 则 会 被 参数 的 值 所 蔡 代 ( 按照 指定 的 方式 转换 为 字符 串 )。 
例如 ， 这 条 语句 : 

StdOut .printf("PI is approximately %.2f\n", Math.PI); 
会 打印 出 

PI is approximately 3.14 
可 以 看 到 , 在 printf() 中 我 们 需要 明确 地 在 第 一 个 参数 的 末尾 加 上 \n 来 换行 。printfQ 函数 
能 够 接受 两 个 或 者 更 多 的 参数 。 在 这 种 情况 下 ， 在 格式 化 字符 串 中 每 个 参数 都 会 有 对 应 的 转换 代 
码 ， 这 些 代码 之 间 可 能 隔 着 其 他 会 被 直接 传递 到 输出 中 的 字符 。 也 可 以 直接 使 用 静态 方法 String. 
format() 来 用 和 printf() 相同 的 参数 得 到 一 个 格式 化 字符 串 而 无 需 打 印 它 。 我 们 可 以 用 格式 化 
打印 方便 地 将 实验 数据 输出 为 表格 形式 (这 是 它们 在 本 书 中 的 主要 用 途 ) ， 如 表 1.1.15 所 示 。 


表 1.1.15 printf() 的 格式 化 方式 〈 更 多 选项 请 见 本 书 网 站 ) 


数据 类 型 转换 代码 举 例 格式 化 字符 串 举 例 转换 后 输出 的 字符 串 
"%14d 四 512" 
int d 512 "og_14d" "512 " 
f "%14.2f" 下 1595.17™ 
double 全 1595.1680010754388 "%.7F" "1595.1680011" 
"%14.4e" 上 1.5952e+03" 
"%14s" " Hello, World" 
String S "Hello, World" "%-14s" "Hello, World 
"%-14.5s" "Hello 38 


1.1.9.4 ”标准 输入 
我 们 的 Stdm 库 从 标准 输入 


流 中 获取 数据 ， 这 些 数据 可 能 ja class Average 
空 也 可 能 是 一 系列 由 空白 字符 分 public or main(String[] args) 
可 2 /二 取 StdIn 中 所 有 数 的 平均 值 
隔 的 值 ( 空格 、 制 表 符 、 换 行 符 人 
等 ) 。 默 认 状 态 下 系统 会 将 标准 int cnt = 0; 
WE A while (!StdIn.isEmptyO)) 
a { /1 读 取 一 个 数 并 计算 累计 之 和 
的 内 容 就 是 输入 流 (由 <ctr1-d> sum += StdIn.readDouble(); 
或 <ctr1-z> 结束 ， 取 决 于 你 使 po 
用 的 终端 应 用 程序 ) 。 这 些 值 可 double avg = sum / cnt; 
入 . > dOut .printf("A 1S %: SMNn 3 
能 是 String 或 是 Java 的 某 种 原 StdOut.printf("Average is %.5f\n", avg) 
始 类 型 的 数据 。 标 准 输 入 流 最 重 


要 的 特点 是 这 些 值 会 在 你 的 程序 
读 取 它 们 之 后 消失 。 只 要 程序 读 
取 了 一 个 值 ， 它 就 不 能 回 退 并 再 次 读 取 它 。 这 个 特点 产生 了 一 些 

i % java Average 
限制 ， 但 它 反映 了 一 些 输入 设备 的 物理 特性 并 简化 了 对 这 些 设备 1.23456 
的 抽象 。 有 了 输入 流 模 型 ， 这 个 库 中 的 静态 方法 大 都 是 自 文档 化 多 


StdIn 的 用 例 举 例 


3.45678 
的 (它们 的 签名 即 说 明了 它们 的 用 途 ) 。 右 侧 列 出 了 StdIn 的 一 4.56789 
个 用 例 。 <ctrl-d> 


Average is 2.90123 


表 1.1.16 详细 说 明了 标准 输入 库 中 的 静态 方法 的 API。 
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表 1.1.16 标准 输入 库 中 的 静态 方法 的 API 
Public class StdIn 


static boolean isEmpty() 如 果 输 入 流 中 没有 剩余 的 值 则 返回 true， 否 则 返回 false 
static int readInt() 读 取 一 个 int 类 型 的 值 
static double readDoubleQ) 读 取 一 个 double 类 型 的 值 
static float readFloat() 读 取 一 个 float 类 型 的 值 
static long readLong() 读 取 一 个 1ong 类 型 的 值 
static boolean readBoolean() 读 取 一 个 boolean 类 型 的 值 
static char readCharQ) 读 取 一 个 char 类 型 的 值 
static byte readByte() 读 取 一 个 byte 类 型 的 值 
static String readString() 读 取 一 个 String 类 型 的 值 
static boolean hasNextLine() 输入 流 中 是 否 还 有 下 一 行 
static String readLine() 读 取 该 行 的 其 余 内 容 
static String readA110) 读 取 输入 流 中 的 其 余 内 容 


1.1.9.5” 重 定向 与 管道 

标准 输入 输出 使 我 们 能 够 利用 许多 操作 系统 都 支持 的 命令 行 的 扩展 功能 。 只 需要 向 启动 程序 的 
命令 中 加 入 一 个 简单 的 提示 符 ， 就 可 以 将 它 的 标准 输出 重 定 向 至 一 个 文件 。 文件 的 内 容 既 可 以 永久 
保存 也 可 以 在 之 后 作为 另 一 个 程序 的 输入 : 

% java RandomSeq 1000 100.0 200.0 > data.txt 

这 条 命令 指明 标准 输出 流 不 是 被 打印 至 终端 窗口 ， 而 是 被 写 入 一 个 叫做 data.txt 的 文件 。 每 次 
调用 StdOut.print() 或 是 Std0ut.printl1n0) 都 会 向 该 文件 追加 一 段 文本 。 在 这 个 例子 中 ， 我 们 
最 后 会 得 到 一 个 含有 1000 个 随机 数 的 文件 。 终端 窗口 中 不 会 出 现任 何 输出 它们 都 被 直接 写 入 了 
“>” 号 之 后 的 文件 中 。 这 样 我 们 就 能 将 信息 存储 以 备 下 次 使 用 。 请 注意 不 需要 改变 RandomSeq 的 
任何 内 容 一 一 它 使 用 的 是 标准 输出 的 抽象 ， 因 此 它 不 会 因为 我 们 使 用 了 该 抽象 的 另 一 种 不 同 的 实现 
而 受到 影响 。 类 似 ， 我 们 可 以 重 定向 标准 输入 以 使 StdIn 从 文件 而 不 是 终端 应 用 程序 中 读 取 数据 : 

% java Average < data.txt 

这 条 命令 会 从 文件 data.txt 中 读 取 一 系列 数值 并 计算 它们 的 平均 值 。 具 体 来 说 ，“<” 号 是 一 个 
提示 符 ， 它 告诉 操作 系统 读 取 文本 文件 data.txt 作为 输入 流 而 不 是 在 终端 窗口 中 等 竺 用户 的 输入 。 
当 程 序 调用 StdIn.readDouble() 时 ， 操 作 系统 读 取 的 是 文件 中 的 值 。 将 这 些 结合 起 来 ， 将 一 个 程 
序 的 输出 重 定向 为 另 一 个 程序 的 输入 叫做 管道 : 

% java RandomSeq 1000 100.0 200.0 | java Average 

这 条 命令 将 RandomSeq 的 标准 输出 和 Average 的 标准 输入 指定 为 同一 个 流 。 它 的 效果 是 好 像 
在 Average 运行 时 RandomSeq 将 它 生 成 的 数字 输入 了 终端 窗口 。 这 种 差别 影响 非常 深远 ， 因 为 它 突 
破 了 我 们 能 够 处 理 的 输入 输出 流 的 长 度 限 制 。 例 如 ， 即 使 计算 机 没有 足够 的 空间 来 存储 十 亿 个 数 ， 
我 们 仍然 可 以 将 例子 中 的 1000 换 成 1 000 000 000 ( 当然 我 们 还 是 需要 一 些 时 间 来 处 理 它 们 ) 。 当 
RandomSeq 调用 Stdout .printlnGO 时 ， 它 就 向 输出 流 的 末尾 添加 了 一 个 字符 串 ; 当 Average 调用 
StdIn.readInt() 时 ， 它 就 从 输入 流 的 开头 删除 了 一 个 字符 串 。 这 些 动作 发 生 的 实际 顺序 取决 于 
操作 系统 : 它 可 能 会 先 运行 RandomSeq 并 产生 一 些 输出 ， 然 后 再 运行 Average， 来 消耗 这 些 输出 ， 
或 者 它 也 可 以 先 运行 Average， 直 到 它 需 要 一 些 输入 然后 再 运行 RandomSeq 来 产生 一 些 输出 。 虽 然 
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最 后 的 结果 都 一 样 ， 但 我 们 的 程序 就 不 ”将 一 个 文件 重 定向 为 标准 输入 
再 需要 担心 这 些 细节 ， 因 为 它们 只 会 和 % java Average < data.txt 


一 人 i 人 人 A data. txt 
标准 输入 和 标准 输出 的 抽象 打交道 。 i 
图 1.1.5 总 结 了 重 定向 与 管道 的 


过 程 。 Average 
1.1.9.6 ”基于 文件 的 输入 输出 
> 从 4 a] 此 将 标准 输出 重 定向 到 一 个 文件 

并 们 和 Ot 人 些 静 > java RandomSeq 1000 100.0 200.0 > data.txt 
态 方 法 ， 来 实现 向 文件 中 写 人 或 从 文件 
中 读 取 一 个 原始 数据 类 型 (或 String 
类 型 ) 的 数组 的 抽象 。 我 们 会 使 用 In — data. txt 
库 中 的 readInts()、readDoubles() 标准 输出 ”> 
和 readStrings() 以 及 Out 库 中 重 载 
的 多 个 writeO) 方法 ，name 参数 可 以 将 一 个 程序 的 输出 通过 管道 作为 另 一 个 程序 的 输入 
是 文件 或 网 页 ， 如 表 1.1.17 所 示 。 例 % java RandomSeq 1000 100.0 200.0 | java Average 
如 ， 借 此 我 们 可 以 在 同一 个 程序 中 分 别 
使 用 文件 和 标准 输入 达到 两 种 不 同 的 日 
的 ， 例 如 BinarySearch。In 和 Out 两 个 LL. 标准 输出 上 | 标准 输入 Fi 
库 也 实现 了 一 些 数据 类 型 和 它们 的 实例 
方法 ， 这 使 我 们 能 够 将 多 个 文件 作为 输 
人 入 输出 流 并 将 网 页 作为 输入 流 ， 我 们 还 加 1.1.5 命令 行 的 重 定向 与 管道 
会 在 1.2 节 中 再 次 考察 它们 。 


RandomSeq 


Average 


表 1.1.17 我 们 用 于 读 取 和 写 入 数组 的 静态 方法 的 API 


public class In 


static int[] readInts(String name) 读 取 多 个 int 值 
static double[] readDoubles(String name) 读 取 多 个 double 值 
static String[] readStrings(String name) 读 取 多 个 String 值 


public class Out 


static void write(int[] a, String name) 写 入 多 个 int 值 
static void write(doule[] a, String name) 写 入 多 个 double 值 
static void write(String[] a, String name) 写 入 多 个 String 值 


注 1: 库 也 支持 其 他 原始 数据 类 型 。 

注 2: 库 也 支持 StdIn 和 StdOut (忽略 name 参数 ) 。 
1.1.9.7 ”标准 绘图 库 (基本 方法 ) 

目前 为 止 ， 我 们 的 输入 输出 抽象 层 的 重点 只 有 文本 字符 串 。 现 在 我 们 要 介绍 一 个 产生 图 像 输 
出 的 抽象 层 。 这 个 库 的 使 用 非常 简单 并 且 人 允许 我 们 利用 可 视 化 的 方式 处 理 比 文字 丰富 得 多 的 信息 。 
和 我 们 的 标准 输入 输出 一 样 ， 标 准 绘图 抽象 层 实 现在 库 StdDraw 中 ， 可 以 从 本 书 的 网 站 上 下 载 
StdDraw.java 到 你 的 工作 目录 来 使 用 它 。 标 准 绘图 库 很 简单 : 我 们 可 以 将 它 想象 为 一 个 抽象 的 能 够 
在 二 维 画 布 上 画 出 点 和 直线 的 绘图 设备 。 这 个 设备 能 够 根据 程序 调用 的 StdDraw 中 的 静态 方法 画 
出 一 些 基 本 的 几何 图 形 ， 这 些 方法 包括 画 出 点 、 直 线 、 文 本 字符 串 、 圆 、 长 方形 和 多 边 形 等 。 和 
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标准 输入 输出 中 的 方法 一 样 ， StdDraw.point (x0, y0); StdDraw.circle(x, y, r); 

、 、 StdDraw.1ineCx1，y1，x2，y2); 

这 些 方法 几乎 也 都 是 自 文档 化 = 

的 : StdDraw.1ine() 能 够 根 GD7 

据 参 数 的 坐标 画 出 一 条 连接 i 

点 (Xo, yo) 和 点 (x y1) 的 线段 ， = \ (x yy) 

StdDraw.point() 能 够 根据 参 \ 

数 坐 标 画 出 一 个 以 x, y) 为 中 2 (e272) 

心 的 点 , 等 等 , 如 图 1.1.6 所 示 。 double[] x = {x0, x1, x2, x3}; 
中 形 可 以 被 坛 人 > double[] y = {y0, yl, y2, y3}; 

和 bd StdDraw.square(x, y, r); StdDraw.polygon (x, y); 

黑色 ) 。 默 认 的 比例 尺 为 单位 

正方 形 ( 所 有 的 坐标 均 在 0 和 (co 0) 


1 之 间 ) 。 标 准 的 实现 会 将 画 (x1, 7) 
布 显示 为 屏幕 上 的 一 个 窗口 ， | 
点 和 线 为 黑色 ， 背 景 为 白色 。 ; 
(x 7 和 
表 1.1.18 是 对 标准 绘图 库 C3 1) Go 1) 
中 静态 方法 API 的 汇总 。 


表 1.1.18 标准 绘图 库 的 静态 1.1.6 StdDraw 的 用 法 举例 
后 1: 示 准 绘 医 静态 


(绘图 ) 方法 的 API 
public class StdDraw 


static void line(double x0, double yO0, double x1, double y1) 
static void point(double x, double y) 


static void text(double x, double y, String s) 

static void circle(double x, double y, double r) 

static void filledCircle(double x, double y, double r) 

static void ellipse(double x, double y, double rw, double rh) 
static void filledEllipse(double x, double y, double rw, double rh) 
static void square(double x, double y, double r) 

static void filledSquare(double x, double y, double r) 

static void rectangle(double x, double y, double rw, double rh) 
static void filledRectangle(double x, double y, double rw, double rh) 
static void polygon(double[] x, double[] y) 

static void filledPolygon(double[] x, double[] y) 


1.1.9.8 ”标准 绘图 库 〈 控 制 方法 ) 

标准 绘图 库 中 还 包含 一 些 方法 来 改变 画布 的 大 小 和 比例 、 直 线 的 颜色 和 宽度 、 文 本 字体 、 绘 图 
时 间 (用 于 动画 ) 等 。 可 以 使 用 在 StdDraw 中 预定 义 的 BLACK、BLUE 、CYAN 、DARK_GRAY 、GRAY、 
GREEN 、LIGHT_GRAY 、MAGENTA 、ORANGE、PINK、RED 、BOOK_RED、WHITE 和 YELLOW 等 颜色 常数 
作为 setPenColorQ 方法 的 参数 (可 以 用 StdDraw.RED 这 样 的 方式 调用 它们 ) 。 画 布 窗口 的 菜单 
还 包含 一 个 选项 用 于 将 图 像 保 存 为 适 于 在 网 上 传播 的 文件 格式 。 表 1.1.19 总 结 了 StdDraw 中 静态 控 
制 方法 的 API。 


public class StdDraw 


表 1.1.19 ”标准 绘图 库 的 静态 〈 控 制 ) 


方法 的 API 


]:] 
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static void 


static void 
static void 
static void 
static void 
static void 


static void 


setXscale(double x0, double x1) 
setYscale(double y0, double y1) 
setPenRadius (double r) 
setPenColor(Color c) 
setFont(Font ff) 
setCanvasSize(int w, int h) 


clear(Color c) 


将 x 的 范 


围 设 为 Co x1) 
将 yy 的 范围 设 为 Q%,y1) 
将 画笔 的 粗细 半径 设 为 了 
将 画笔 的 颜色 设 为 c 
将 文本 字 


将 画布 窗 
清空 画布 并 


澡 和 高 分 别 设 为 w 和 


static 


在 本 书 中 ， 我 们 会 在 数据 分 析 和 算法 的 可 视 化 中 使 用 StdDraw。 人 


本 书 的 其 练习 中 还 会 遇 到 更 多 的 例子 。 绘 图 库 也 支持 动画 一 一 当然 ， 


void 


show(int dt) 


他 章节 和 


的 网 站 上 展开 了 。 


据 


显示 所 有 图 像 并 斩 停 dt 点 


43 


表 1.1.20 StdDraw 绘图 举例 


绘图 的 实现 代码 片段 ) 


结 


这 个 话题 只 个 日 


我 们 在 
能 在 本 书 
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果 


int N = 100; 
StdDraw. setXscale(0, N); 
StdDraw.setYscale(0, N*N); 
StdDraw.setPenRadius(.01); 
for (Cint 1 = 1; i <= N; i++) 
过 
StdDraw.point(i, 1); 
StdDraw.point(i, i*1); 
StdDraw.point(i, i*Math.10g(1i)); 
} 


A 


随机 数组 


int N = 50; 
double[] a = new double[N]; 
for Cint 1 = 0; i < N; i++) 
a[i] = StdRandom.random(); 
for Cint i = 0; i < N; i++) 
{ 
double x = 1.0*1i/N; 
double y = a[i]/2.0; 
double rw = 0.5/N; 
double rh = a[i]/2.0; 
StdDraw.filledRectangle(x, y, rw, 
} 


rh); 


已 排序 
机 数组 


的 随 


int N = 50; 

double[] a = new double[N]; 

for Cint 1 = 0; i < N; i++) 
a[i] = StdRandom.random() ; 

Arrays.sort(a); 

For Crmne .E00 

{ 


i < N; i++) 
double x = 1.0*i/N; 
double y = a[i]/2.0; 
double rw = 0.5/N; 
double rh = a[i]/2.0; 


StdDraw.filledRectangle(x, y, rw, 


rh); 
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1.1.10 “二 分 查找 

我 们 要 学 习 的 第 一 个 Java 程序 的 示例 程序 就 是 著名 、 高 效 并 且 应 用 广泛 的 二 分 查找 算法 ， 如 下 
所 示 。 这 个 例子 将 会 展示 本 书 中 学 习 新 算法 的 基本 方法 。 和 我 们 将 要 学 习 的 所 有 程序 一 样 ， 它 既是 
算法 的 准确 定义 ， 又 是 算法 的 一 个 完整 的 Java 实现 ， 而 且 你 还 能 够 从 本 书 的 网 站 上 下 载 它 。 


二 分 查找 


import java.util.Arrays; 
public class BinarySearch 
{ 
public static int rank(int key, int[] a) 
{ // 数组 必须 是 有 序 的 
int lo = 0; 
int hi = a.length - 1; 
while (lo <= hi) 
{ // 被 查找 的 键 要 么 不 存在 ， 要 么 必然 存在 于 a[1o. .hi] 之 中 
int mid = lo + (hi - 10) / 2; 
if (key < a[fmid]) hi = mid - 1; 
else if (key > a[mid]) lo = mid + 1; 
else return mid; 


} 
return -1; 
} 
public static void main(String[] args) 
{ 
int[] whitelist = In.readInts(args[0]); 
Arrays.sort(whitelist); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 值 ， 如 果 不 存在 于 白 名 单 中 则 将 其 打印 
int key = StdIn.readInt() ; 
if (rank(key, whitelist) < 0) 
Stdout.printlnCkey) ; 


3 
} 
上 
这 段 程序 接受 一 个 白 名 单 文件 ( 一 列 整数 ) re | | 
作为 参数 会 过 滤 措 标准 输入 中 的 所 有 存在 % java BinarySearch tinyW.txt < tinyT.txt 


于 白 名 单 中 的 条 目 ， 仅 将 不 在 白 名 单 上 的 整数 99 

打印 到 标准 输出 中 。 它 在 rankQO 静态 方法 中 实 全 

现 了 二 分 查找 算法 并 高 效 地 完成 了 这 个 任务 。 

关于 二 分 查找 算法 的 完整 讨论 ， 包 括 它 的 正确 性 、 性 能 分 析 及 其 应 用 ， 请 见 3.1 节 。 


1.1.10.1 二 分 查找 

我 们 会 在 3.2 节 中 详细 学 习 二 分 查找 算法 ， 但 此 处 先 简单 地 描述 一 下 。 算 法 是 由 静态 方法 
rank() 实现 的 ， 它 接受 一 个 整数 键 和 一 个 已 经 有 序 的 int 数组 作为 参数 。 如 果 该 键 存在 于 数组 中 
则 返回 它 的 索引 ， 和 否则 返回 -1。 算 法 使 用 两 个 变量 1o 和 hi ， 并 保证 如 果 键 在 数组 中 则 它 一 定 在 
a[1o..hi] 中 ， 然 后 方法 进入 一 个 循环 ， 不 断 将 数组 的 中 间 键 〈 索 引 为 mid ) 和 被 查找 的 键 比 较 。 
如 果 被 查找 的 键 等 于 a[mid] ， 返 回 mid; 否则 算法 就 将 查找 范围 缩小 一 半 ， 如 果 被 查找 的 键 小 于 
a[mid] 就 继续 在 左 半 边 查 找 ， 如 果 被 查找 的 键 大 于 a[mid] 就 继续 在 右 半边 查找 。 算 法 找到 被 查找 
的 键 或 是 查找 范围 为 空 时 该 过 程 结 束 。 二 分 查找 之 所 以 快 是 因为 它 只 需 检查 很 少 几 个 条 目 ( 相对 于 
数组 的 大 小 ) 就 能 够 找到 目标 元 素 (或 者 确认 目标 元 素 不 存在 ) 。 在 有 序数 组 中 进行 二 分 查找 的 示 


1.1 基础 编程 模型 < 29 


例如 图 1.1.7 所 示 。 

1.1.10.2 ”开发 用 例 

对 于 每 个 算法 的 实现 ， 我 们 都 会 开发 一 个 用 例 mainQ 函数 ， 并 在 书 中 或 是 本 书 的 网 站 上 提供 
个 示例 输入 文件 来 帮助 读者 学 习 该 算法 并 检测 它 的 性 能 。 在 这 个 例子 中 ， 这 个 用 例会 从 命令 行 指定 的 
文件 中 读 取 多 个 整数 ， 并 会 打印 出 标准 输入 中 所 有 不 存在 于 该 文件 中 的 整数 。 我 们 使 用 了 图 1.1.8 所 
示 的 几 个 较 小 的 测试 文件 来 展示 它 的 行为 ， 这 些 文件 也 是 图 1.1.7 中 的 跟踪 和 例子 的 基础 。 我 们 会 使 
用 较 大 的 测试 文件 来 模拟 真实 应 用 并 测试 算法 的 性 能 (请 见 1.1.10.3 节 ) 。 


对 23 的 命中 查找 
1o mid hi 


10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 
lo mid hi 


y y M , 
10 11 12 16 18 23 29 tinyW.txt tinyT.txt 
lo midhi 84 23 
48 50 
18 23 29 68 10' 
10 99 
对 50 的 未 命中 查找 18 18 
1o mid 98 23 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 六 光 不 存在 于 
1o mid hi tinyW. txt 
54 了 
48 54 57 68 77 84 98 3 
lo midhi 
+ y y 16 a 
48 54 57 加 13 
1o midhi SE ee 
RE 29 98 
48 77 
hi 1o 4 
68 
人 46 
图 1.1.8 为 BinarySearch 的 测试 用 例 2 
图 1.1.7 有 序数 组 中 的 二 分 查找 准备 的 小 型 测试 文件 47 


1.1.10.3 ”和 白 名 单 过 滤 
如 果 可 能 ， 我 们 的 测试 用 例 都 会 通过 模拟 实际 情况 来 展示 当前 算法 的 必要 性 。 这 里 该 过 程 被 称 
为 白 名 单 过 滤 。 具 体 来 说 ， 可 以 想象 一 家 信用 卡 公司 ， 它 需要 检查 客户 的 交易 账号 是 否 有 效 。 为 此 ， 
它 需 要 : 
口 将 客户 的 账号 保存 在 一 个 文件 中 ， 我 们 称 它 为 白 名单 ; 
口 从 标准 输入 中 得 到 每 笔 交易 的 账号 ; 
口 使 用 这 个 测试 用 例 在 标准 输出 中 打印 所 有 与 任何 客户 无 关 的 账号 , 公司 很 可 能 拒绝 此 类 交易 。 
在 一 家 有 上 百 万 客户 的 大 公司 中 ， 需 要 处 理 数 百 万 甚至 更 多 的 交易 都 是 很 正常 的 。 为 了 模拟 这 
种 情况 ， 我 们 在 本 书 的 网 站 上 提供 了 文件 largeW.txt ( 100 万 个 整数 ) 和 largeT.txt ( 1000 万 个 整数 ) 
其 基本 情况 如 图 1.1.9 所 示 。 
1.1.10.4 ”性 能 
一 个 程序 只 是 可 用 往往 是 不 够 的 。 例 如 ， 以 下 rankQ 〇 的 实现 也 可 以 很 简单 ， 它 会 检查 数组 的 
每 个 元 素 ， 其 至 都 不 需要 数组 是 有 序 的 : 


30 PP 
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public static int rank(int key, int[] a) 
{ 


for (int i = 0; i < a.length; i++) 
if (a[i] == key) return i; 
return -1; 
} 
有 了 这 个 简单 易 懂 的 解决 方案 ， 我 们 为 什 
么 还 需要 归并 排序 和 二 分 查找 呢 ?” 你 在 完成 练 
习 1.1.38 时 会 看 到 ， 计 算 机 用 rankQ 〇 方法 的 
暴力 实现 处 理 大 量 输 入 ( 比如 含有 100 万 个 条 
目的 白 名 单 和 1000 万 条 交易 ) 非常 慢 。 没 有 
如 二 分 查找 或 者 归并 排序 这 样 的 高 效 算法 ， 解 
决 大 规模 的 白 名 单 问题 是 不 可 能 的 。 良 好 的 性 
能 常常 是 极为 重要 的 ， 因 此 我 们 会 在 1.4 节 
为 性 能 研究 做 一 些 铺垫 ， 并 会 分 析 我 们 学 习 自 
所 有 算法 的 性 能 特点 (包括 2.2 节 的 归并 排序 
和 3.1 节 中 的 二 分 查找 ) 。 
目前 ， 我 们 在 这 里 粗略 地 勾勒 出 我 们 的 
编程 模型 的 目标 是 ， 确 保 你 能 够 在 计算 机 上 运 
行 类 似 于 BinarySearch 的 代码 ， 使 用 它 处 理 我 
们 的 测试 数据 并 为 适应 各 种 情况 修改 它 ( 比如 
本 节 练 习 中 所 描述 的 一 些 情况 ) 以 完全 理解 它 
的 可 应 用 性 。 我 们 的 编程 模型 就 是 设计 用 来 
简化 这 些 活动 的 ， 这 对 各 种 算法 的 学 习 至 关 
重要 。 


Tr 


UU 上 


< 


1.1.11 展望 


largeW.txt largeT.txt 
489910 944443 
18940 293674 
774392 572153 
490636 600579 
125544 499569 
407391 984875 
T15771 763178 
992663 295754 
923282 44696 
176914 207807 
217904 138910 
S71222 903531 
519039 140925 
395667 0 不 存在 于 
和 入 并 了 总 4 A 
199694 largew. txt 
774549 
100 万 个 int 值 ”635871 
161828 
805380 
1000 万 个 int 值 


% java BinarySearch largeW.txt < 1argeT.txt 
499569 
984875 
295754 
207807 
140925 
161828 


3 675 966 个 int 值 


图 1.1.9 为 BinarySearch 测试 用 例 准 备 的 大 型 文件 


在 本 节 中 ， 我 们 描述 了 一 个 精巧 而 完整 的 编程 模型 ， 数 十 年 来 它 一 直 在 ( 并 且 现 在 仍 在 


为 广 


大 程序 员 服 务 。 但 现代 编程 技术 已 经 更 进一步 。 前 进 的 这 一 步 被 称 为 数据 抽象 ， 有 时 也 被 称 为 面向 
对 象 编程 ， 它 是 我 们 下 一 节 的 主题 。 简 单 地 说 ， 数 据 抽象 的 主要 思想 是 鼓励 程序 定义 自己 的 数据 类 


型 (一 系列 值 和 对 这 些 值 的 操作 ) ， 而 不 仅仅 是 那些 操作 预定 义 的 数据 类 型 的 静态 方法 。 
j， 数 据 抽 象 已 经 成 为 现代 程序 开发 的 核心 。 我 们 


面向 对 象 编程 在 最 近 几 十 年 得 到 了 广泛 的 应 
在 本 书 中 “拥抱 ”数据 抽象 的 原因 主要 有 三 。 


口 它 人 允许 我 们 通过 模块 化 编程 复 用 代码 。 例 如 ， 第 2 章 中 的 排序 算法 和 第 3 章 中 的 二 分 查找 以 


及 其 他 算法 ， 都 允许 调用 者 用 同 
用 者 自 定义 的 数据 类 型 。 


效 算法 的 基础 。 


段 代码 处 理 任 意 类 型 的 数据 ( 而 不 仅 限于 整数 ) ,包括 调 


口 它 使 我 们 可 以 轻易 构造 多 种 所 谓 的 链 式 数据 结构 ， 它 们 比 数组 更 灵活 ， 在 许多 情况 下 都 是 高 


口 借助 它 我 们 可 以 准确 地 定义 所 面 对 的 算法 问题 。 比 如 1.5 节 中 的 union-find 算法 、2.4 节 中 的 


优先 队列 算法 和 第 3 章 中 的 符号 表 算 法 ， 它 们 解决 问题 的 方式 都 是 定义 数据 结构 并 高 效 地 实 


现 它们 的 一 组 操作 。 这 些 问 题 都 能 够 用 数 所 


抽象 很 好 地 解决 。 


编程 中 和 我 们 的 使 命 相关 的 另 一 个 重要 特性 。 
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尽管 如 此 ， 但 我 们 的 重点 仍然 是 对 算法 的 研究 。 在 了 解 了 这 些 知 识 以 后 ， 我 们 将 学 习 面 向 对 象 


答疑 

问 ”什么 是 Java 的 字 节 码 ? 

答 ” 它 是 程序 的 一 种 低级 表示 ， 可 以 运行 于 Java 的 虚拟 机 。 将 程序 抽象 为 字 节 码 可 以 保证 Java 程序 员 的 
代码 能 够 运行 在 各 种 设备 之 上 。 

问 。 Java 允许 整 型 溢出 并 返回 错误 值 的 做 法 是 错误 的 。 难 道 Java 不 应 该 自动 检查 游 出 吗 ? 

答 ”这 个 问题 在 程序 员 中 一 直 是 有 争议 的 。 简 单 的 回答 是 它们 之 所 以 被 称 为 原始 数据 类 型 就 是 因为 缺乏 
此 类 检查 。 避 免 此 类 问题 并 不 需要 很 高 深 的 知识 。 我 们 会 使 用 int 类 型 表示 较 小 的 数 (小 于 10 个 十 
进 制 位 ) 而 使 用 1ong 表示 10 亿 以 上 的 数 。 

问 Math.abs(-2147483648) 的 返回 值 是 什么 ? 

答 ”-2147483648。 这 个 奇怪 的 结果 (但 的 确 是 真 的 ) 就 是 整数 溢出 的 典型 例子 。 

问 ”如何 才 能 将 一 个 double 变量 初始 化 为 无 穷 大 ? 

答 ”可 以 使 用 Java 的 内 置 常数 : Double.POSITIVE_INFINITY 和 Double.NEGATIVE_INFINITY。 

问 能够 将 double 类 型 的 值 和 int 类 型 的 值 相互 比较 吗 ? 

答 不 通过 类 型 转换 是 不 行 的 ， 但 请 记 住 Java 一 般 会 自动 进行 所 需 的 类 型 转换 。 例 如 ， 如 果 x 的 类 型 是 
int 且 值 为 3, 那 么 表达 式 (x<3.1) 的 值 为 true 一 一 Java 会 在 比较 前 将 x 转换 为 double 类 型 ( 因为 3.1 
是 一 个 double 类 型 的 字面 量 ) 。 

问 ”如 果 使 用 一 个 变量 前 没有 将 它 初始 化 ， 会 发 生 什么 ? 

答 如果 代 码 中 存在 任何 可 能 导致 使 用 未 经 初始 化 的 变量 的 执行 路 径 ，Java 都 会 抛 出 一 个 编译 异常 。 

问 Java 表达 式 1/0 和 1.0/0.0 的 值 是 什么 ? 

答 ”第 一 个 表达 式 会 产生 一 个 运行 时 除 以 零 异 常 〈 它 会 终止 程序 ， 因 为 这 个 值 是 未 定义 的 ) ; 第 二 个 表 
达 式 的 值 是 Infinity (无 穷 大 ) 。 

问 ”能够 使 用 < 和 > 比较 String 变量 吗 ? 

答 不 行 ， 只 有 原始 数据 类 型 定义 了 这 些 运 算 符 。 请 见 1.1.2.3 节 。 

问 负数 的 除法 和 余数 的 结果 是 什么 ? 

答 ” 表 达 式 a/b 的 商会 向 0 取 整 ，a % b 的 余数 的 定义 是 (a/b)*b + a % b 恒 等 于 a。 例 如 -14/3 和 
14/-3 的 商都 是 -4, 但 -14 % 3 是 -2, 而 14 % -3 是 2。 

问 为 什么 使 用 (a && b) 而 非 (a & b) ? 

答 ”运算 符 &、| 和 和 ^ 分 别 表示 整数 的 位 逻辑 操作 与 、 或 和 异 或 。 因 此 ，1016 的 值 为 14，10A6 的 值 为 
12。 在 本 书 中 我 们 很 少 (偶尔 ) 会 用 到 这 些 运 算 符 。&& 和 | | 运算 符 仅 在 独立 的 布尔 表达 式 中 有 效 ， 
原因 是 短路 求 值 法 则 : 表达 式 从 左 向 右 求 值 ， 一 旦 整个 表达 式 的 值 已 知 则 停止 求 值 。 

问 购 套 if 语句 中 的 二 义 性 有 问题 吗 ? 

答 ”是 的 。 在 Java 中， 以 下 语句 : 


if <expr1l> if <expr2> <stmntA> else <stmntB> 
等 价 于 : 


if <expr1l> { if <expr2> <stmntA> else <stmntB> } 
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即使 你 想 表达 的 是 : 
if <exprTJ> { if <expr2> <stmntA> } else <stmntB> 
避免 这 种 “无 主 的 ”else 陷阱 的 最 好 办 法 是 显 式 地 写 明 所 有 大 括号 。 

问 一 个 for 循环 和 它 的 while 形式 有 什么 区 别 ? 

答 for 循环 头 部 的 代码 和 for 循环 的 主体 代码 在 同一 个 代码 段 之 中 。 在 一 个 典型 的 for 循环 中 ， 递 
增 变 量 一 般 在 循环 结束 之 后 都 是 不 可 用 的 ; 但 在 和 它 等 价 的 while 循环 中 ， 递 增 变量 在 循环 结 

22 之 后 仍然 是 可 用 的 。 这 个 区 别 常常 是 使 用 while 而 非 for 循环 的 主要 原因 。 

问 有 些 Java 程序 员 用 int a[] 而 不 是 int[] a 来 声明 一 个 数组 。 这 两 者 有 什么 不 同 ? 

答 在 Java 中 ,两 者 等 价 昌都 是 合法 的 。 前 一 种 是 C 语言 中 数组 的 声明 方式 。 后 者 是 Java 提倡 的 方式 ， 
因为 变量 的 类 型 int[] 能 更 清楚 地 说 明 这 是 一 个 整 型 的 数组 。 

问 为 什么 数组 的 起 始 索 引 是 0 而 不 是 1? 

答 ”这 个 习惯 来 源 于 机 器 语言 ， 那 时 要 计算 一 个 数组 元 素 的 地 址 需要 将 数组 的 起 始 地 址 加 上 该 元 素 的 索 
引 。 将 起 始 索 引 设 为 1 要 么 会 浪费 数组 的 第 一 个 元 素 的 空间 ， 要么 会 花费 额外 的 时 间 来 将 索引 减 1。 

问 如果 a[] 是 一 个 数组 ,为 什么 Stdout.printin(a) 打印 出 的 是 一 个 十 六 进 制 的 整数 ， 比 如 @ 
f62373 ， 而 不 是 数组 中 的 元 素 呢 ? 

答 ” 问 得 好 。 该 方法 打印 出 的 是 这 个 数组 的 地 址 ， 不 过 的 是 你 一 般 都 不 需要 它 。 

问 我们 为 什么 不 使 用 标准 的 Java 库 来 处 理 输入 和 图 形 ? 

答 ”我 们 的 确 用 到 了 它们 ， 但 我 们 希望 使 用 更 简单 的 抽象 模型 。StdIn 和 StdDraw 背后 的 Java 标准 库 是 
为 实际 生产 设计 的 ， 这 些 库 和 它们 的 API 都 有 些 策 重 。 要 想 知道 它们 真正 的 模样 ， 请 查看 StdIn.java 
和 StdDraw.java 的 代码 。 

问 我 的 程序 能 够 重新 读 取 标准 输入 中 的 值 吗 ? 

答 不 行 , 你 只 有 一 次 机 会 ， 就 好 像 你 不 能 撤销 print1nQ 的 结果 一 样 。 

问 ”如果 我 的 程序 在 标准 输入 为 空 之 后 仍然 尝试 读 取 ， 会 发 生 什 么 ? 

答 ”会 得 到 一 个 错误 。StdIn.isEmpty() 能 够 帮助 你 检查 是 否 还 有 可 用 的 输入 以 避免 这 种 错误 。 

问 ”这 条 出 错 信 息 是 什么 意思 ? 


Exception in thread "main" java.lang.NoClassDefFoundError: StdIn 
答 ”你 可 能 忘记 把 StdIn.java 文件 放 到 工作 目录 中 去 了 。 
问 在 Java 中 ， 一 个 静态 方法 能 够 将 另 一 个 静态 方法 作为 参数 吗 ? 
53] 答 不 行 ,但 问 得 好 ， 因 为 有 很 多 语言 都 能 够 这 么 做 。 


图 练 
1 


.1.1 给 出 以 下 表达 式 的 值 : 
a(0+15 ) /2 
b.2.0e-6 * 100000000.1 
c. true && false || true && true 
1.1.2 给 出 以 下 表达 式 的 类 型 和 值 : 
a. (1 + 2.236)/2 
b.l1+2+3+4.0 
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c.4.1 >= 4 
dl+2+"3" 

1.1.3 编写 一 个 程序 ， 从 命令 行 得 到 三 个 整数 参数 。 如 果 它 们 都 相等 则 打印 equal1， 和 否则 打印 not 
equal。 


1.1.4 下 列 语句 各 有 什么 问题 (如果 有 的 话 ) ? 
a.if (a > b) then c = 0; 
b.ifa>bi{ic=0;+ 
c.if (a > b) c= 0; 
d.if (a> b)c=0 else b= 0; 
1.1.5 ”编写 一 段 程序 ， 如 果 double 类 型 的 变量 x 和 y 都 严格 位 于 0 和 1 之 间 则 打印 true， 和 否则 打印 


false。 
1.1.6 下 面 这 段 程序 会 打印 出 什么 ? 
int f = 0; 
Tint ge 1L 
for (Cint 1 = 0; i <= 15; i++) 
{ 
StdOut.print1n(f); 
f=fr+9g; 
g=f -9g; 54 


} 
1.1.7 分别 给 出 以 下 代码 段 打 印 出 的 值 : 
a.double t = 9.0; 
while (Math.abs(t - 9.0/t) > .001) 
t= (9.0/t + t) / 2.0; 
StdOut.printf("%.5f\n", t); 
b.int sum = 0; 
for (int 1 = 1; 1 < 1000; i++) 
for (int j] = 0; j < i; j++) 
Sum++; 
Stdout.printlnCsum) ; 
c.int sum = 0; 
for int Ta .11 < 1000s 1 *s 2) 
for (Cint j = 0; j < 1000; j++) 
SUum++; 
Stdout.printlnCsum) ; 


1.1.8 下 列 语句 会 打印 出 什么 结果 ? 给 出 解释 。 
a. System.out.printlnC'b'); 


b. System.out.println(C'b' + 'c'); 
c.System.out.printin((char) ('a' + 4)); 
1.1.9 ”编写 一 段 代 码 ， 将 一 个 正 整 数 N 用 二 进 制 表示 并 转换 为 一 个 String 类 型 的 值 s。 


解答 : Java 有 一 个 内 置 方法 Integer.toBinaryString(N) 专门 完成 这 个 任务 ， 但 该 题 的 目的 就 

是 给 出 这 个 方法 的 其 他 实现 方法 。 下 面 就 是 一 个 特别 简洁 的 答案 : 

String Sa 

for (int n = N; n > 0; n /= 2) 55 


Ss= (n% 2)+ 5s; 
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1:1:12 


44513 
1.1.14 
1.1.15 


1.1.16 


1.1.17 


1.1.18 


1:1:19 


下 面 这 段 代 码 有 什么 问题 ? 
Tn :as 
for (Cint 1 = 0; i < 10; i++) 

alil] TT* 1 
解答 : 它 没有 用 new 为 a[] 分 配 内 存 。 这 段 代 码 会 产生 一 个 variable a might not have 
been initialized 的 编译 错误 。 
编写 一 段 代 码 ， 打 印 出 一 个 二 维 布尔 数组 的 内 容 。 基 中， 使 用 * 表示 真 ， 空 格 表示 假 。 打 印 出 
行 号 和 列 号 。 
以 下 代码 段 会 打印 出 什么 结果 ? 
int[] a = new int[10]; 
for (Cint i = 0; i < 10; i++) 

a[i] = 9 - 1i; 
for (int 1 = 0; i < 10; i++) 

a[li] = a[a[i]]; 
for (Cint i = 0; i < 10; i++) 

System.out.println(Ci) ; 
编写 一 段 代 码 ， 打 印 出 一 个 M 行 X 列 的 二 维 数组 的 转 置 〈 交 换行 和 列 ) 。 
编写 一 个 静态 方法 1g90) , 接受 一 个 整 型 参数 N, 返回 不 大 于 logyN 的 最 大 整数 。 不 要 使 用 Math 库 。 
编写 一 个 静态 方法 histogram() ， 接 受 一 个 整 型 数组 a[] 和 一 个 整数 M 为 参数 并 返回 一 个 大 小 
为 M 的 数组 ,其 中 第 i 个 元 素 的 值 为 整数 i 在 参数 数组 中 出 现 的 次 数 。 如 果 a[] 中 的 值 均 在 0 到 M-1 
之 间 ， 返 回 数组 中 所 有 元 素 之 和 应 该 和 a.1ength 相等 。 
给 出 exR1(6) 的 返回 值 : 


public static String exR1LCint n) 
{ 


~ 


mt 


if (Cn <= 0) return ™"; 
return exR1(n-3) + n + exR1(n-2) + ni 


} 
找 出 以 下 递归 函数 的 问题 : 


public static String exR2(int n) 


{ 
String s = exR2(n-3) + n + exR2(n-2) + n; 
if (Cn <= 0) return ™"; 
return s; 

} 


答 : 这 段 代码 中 的 基础 情况 永远 不 会 被 访问 。 调 用 exR2 (C3) 会 产生 调用 exR2(0) 、exR2(-3) 和 
exR2(-6) ， 循 环 往复 直到 发 生 StackOverflowError。 


请 看 以 下 递归 函数 : 
public static int mystery(int a, int b) 
{ 

if (b == 0) return 0; 


if (b % 2 == 0) return mystery(ata, b/2); 
return mystery(ata, b/2) + ai 


mystery(2，25) 和 mystery(3，11) 的 返回 值 是 多 少 ? 给 定 正 整 数 a 和 b, mystery(a,b) 
计算 的 结果 是 什么 ”将 代码 中 的 + 替换 为 * 并 将 return 0 改 为 return 1， 然 后 回答 相同 
的 问题 。 

在 计算 机 上 运行 以 下 程序 : 
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public class Fibonacci 
{ 
public static long FCint N) 
{ 
if (N == 0) return 0; 
if (N == 1) return 1; 
return FC(N-1) + FCN-2) ; 
} 
public static void main(String[] args) 
人‘ 
for (Cint N = 0; N < 100; N++) 
StdOut.printIn(N + " " + FC(N)); 


} 
} 57 


计算 机 用 这 上 段 程序 在 一 个 小 时 之 内 能 够 得 到 F(N) 结果 的 最 大 N 值 是 多 少 ? 开发 FCN) 的 一 
个 更 好 的 实现 ， 用 数组 保存 已 经 计算 过 的 值 。 

1.1.20 ”编写 一 个 递归 的 静态 方法 计算 1nCVI) 的 值 。 

1.1.21 编写 一 段 程序 ， 从 标准 输入 按 行 读 取 数 据 ， 其 中 每 行 都 包含 一 个 名 字 和 两 个 整数 。 然 后 用 
printf() 打印 一 张 表格 ， 每 行 的 若干 列 数 据 包 括 名 字 、 两 个 整数 和 第 一 个 整数 除 以 第 二 个 整数 

的 结果 ， 精 确 到 小 数 点 后 三 位 。 可 以 用 这 种 程序 将 棒球 球 手 的 击 球 命中 率 或 者 学 生 的 考试 分 数 

制 成 表格 。 

1.1.22 使 用 1.1.6.4 节 中 的 rankQO 递归 方法 重新 实现 BinarySearch 并 跟踪 该 方法 的 调用 。 每 当 该 方法 
被 调用 时 ， 打 印 出 它 的 参数 1o 和 hi 并 按照 递归 的 深度 缩 进 。 提 示 : 为 递归 方法 添加 一 个 参数 
来 保存 递归 的 深度 。 

1.1.23 为 BinarySearch 的 测试 用 例 添加 一 个 参数 : + 打印 出 标准 输入 中 不 在 白 名 单 上 的 值 ; -， 则 打 
印 出 标准 输入 中 在 白 名 单 上 的 值 。 

1.1.24 给 出 使 用 欧 几 里 得 算法 计算 105 和 24 的 最 大 公约 数 的 过 程 中 得 到 的 一 系列 p 和 9g 的 值 。 扩 展 该 
算法 中 的 代码 得 到 一 个 程序 Euclid， 从 命令 行 接受 两 个 参数 ， 计 算 它 们 的 最 大 公约 数 并 打印 出 每 
次 调用 递归 方法 时 的 两 个 参数 。 使 用 你 的 程序 计算 1 111 111 和 1 234 567 的 最 大 公约 数 。 

1.1.25 ”使 用 数学 归纳 法 证 明 欧 几 里 得 算法 能 够 计算 任意 一 对 非 负 整数 p 和 9g 的 最 大 公约 数 。 58 


1.1.26 将 三 个 数字 排序 。 假设 a、b、c 和 上 都 是 同一 种 原始 数字 类 型 的 变量 。 证 明 以 下 代码 能 够 将 a、 
b、c 按照 升序 排列 : 


if (a>b){t=a;a=b;b=t;} 
if (a>c) {t=a;a=c;c=t;} 
if (b>c){t=b;b=c;c=t;} 


1.1.27 ”二 项 分 布 。 佑 计 用 以 下 代码 计算 binomial(100，50，0.25) 将 会 产生 的 递归 调用 次 数 : 
public static double binomial(int N, int k, double p) 


{ 

if (CN == 0 && k == 0) return 1.0; 

if (N<0 || k < 0) return 0.0; 

return (1.0 - p)*binomial(N-1, k, p) + p*binomial(N-1, k-1, p); 
} 


将 已 经 计算 过 的 值 保存 在 数组 中 并 给 出 一 个 更 好 的 实现 。 
1.1.28 ”删除 重复 元 素 。 修 改 BinarySearch 类 中 的 测试 用 例 来 删 去 排序 之 后 白 名 单 中 的 所 有 重复 元 素 。 
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1.1.29 


1.1.30 


1:1:31 
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1.1.32 


1.1.33 


1.1.34 
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等 值 键 。 为 BinarySearch 类 添加 一 个 静态 方法 rank(), 它 接 受 一 个 键 和 一 个 整 型 有 序数 组 ( 可 
能 存在 重复 键 ) 作为 参数 并 返回 数组 中 小 于 该 键 的 元 素数 量 ， 以 及 一 个 类 似 的 方法 countQ 〇 来 
返回 数组 中 等 于 该 键 的 元 素 的 数量 。 注 意 : 如 果 1 和 ]j 分别 是 rank(key,a) 和 count(key,a) 
的 返回 值 ， 那 么 a[i. .i+j-1] 就 是 数组 中 所 有 和 key 相等 的 元 素 。 

数组 练习 。 编 写 一 段 程序 ， 创 建 一 个 YXx N 的 布尔 数组 a[] [] 。 其 中 当 i 和 了]j 互 质 时 (没有 相同 
因子 ) ，a[i] [] 为 true， 否 则 为 false。 

随机 连接 。 编 写 一 段 程序 ， 从 命令 行 接 受 一 个 整数 N 和 double 值 p (0 到 1 之 间 ) 作为 参数 ， 
在 一 个 圆 上 画 出 大 小 为 0.05 有 间距 相等 的 N 个 点 ， 然 后 将 每 对 点 按照 概率 p 用 灰 线 连接 。 
直方 图 。 假 设 标准 输入 流 中 含有 一 系列 double 值 。 编 写 一 段 程 序 ， 从 命令 行 接受 一 个 整数 入 和 
两 个 double 值 1 和 xr。 将 (1, 7) 分 为 N 段 并 使 用 Stdpraw 画 出 输入 流 中 的 值 落 入 每 段 的 数量 的 
直方 图 。 

甜 阵 库 。 编 写 一 个 Matrix 库 并 实现 以 下 API: 


public class Matrix 


static double dot(double[] x, double[] y) 向 量 点 乘 
static double[][] mult(double[][] a, double[][] b) 和 矩阵 和 和 矩 阵 之 积 
static double[][] transpose(double[][] a) 转 置 矩阵 
static double[] mult(double[][] a, double[] x) 矩阵 和 向 量 之 积 
static double[] mult(double[] y, double[][] a) 向 量 和 年 阵 之 积 


编写 一 个 测试 用 例 ， 从 标准 输入 读 取 和 矩阵 并 测试 所 有 方法 。 

过 滤 。 以 下 哪些 任务 需要 (在 数组 中 ， 比 如 ) 保存 标准 输入 中 的 所 有 值 ? 哪些 可 以 被 实现 为 一 
个 过 滤器 且 仅 使 用 固定 数量 的 变量 和 固定 大 小 的 数组 (和 NN 无关 ) ? 在 每 个 问题 中 ， 输 入 都 来 
自 于 标准 输入 且 含 有 NN 个 0 到 1 的 实数 。 

口 打印 出 最 大 和 最 小 的 数 

口 打印 出 所 有 数 的 中 位 数 

口 打印 出 第 小 的 数 , 小 于 100 

口 打印 出 所 有 数 的 平方 和 

口 打印 出 YX 个 数 的 平均 值 

口 打印 出 大 于 平均 值 的 数 的 百分比 

口 将 X 个 数 按照 升序 打印 

口 将 YX 个 数 按照 随机 顺序 打印 


图 实验 是 


1.1.35 


模拟 搓 朋 子 。 以 下 代码 能 够 计算 每 种 两 个 山子 之 和 的 准确 概率 分 布 : 
int SIDES = 6; 
double[] dist = new double[2*SIDES+1]; 
for (Cint 1 = 1; i <= SIDES; i++) 
for (int j = 1; j <= SIDES; j++) 
dist[i+j] += 1.0; 


for (int k = 2; k <= 2*SIDES; k++) 
dist[k] /= 36.0; 
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dist[i] 的 值 就 是 两 个 骨 子 之 和 为 证 的 概率 。 用 实验 模拟 NW 次 掷 仍 子 ， 并 在 计算 两 个 1 到 
6 之 间 的 随机 整数 之 和 时 记录 每 个 值 的 出 现 频率 以 验证 它们 的 概率 。V 要 多 大 才能 够 保证 你 
的 经 验 数 据 和 准确 数据 的 吻合 程度 达到 小 数 点 后 三 位 ? 
1.1.36 乱 序 检查 。 通 过 实验 检查 表 1.1.10 中 的 乱 序 代码 是 否 能 够 产生 预期 的 效果 。 编 写 一 个 程序 
ShuffleTest， 接 受命 令 行 参数 M 和 N， 将 大 小 为 M 的 数组 打 乱 六 次 且 在 每 次 打 乱 之 前 都 将 数组 
重新 初始 化 为 a[i] = i。 打印 一 个 MxM 的 表格 ， 对 于 所 有 的 列 j]， 行 i 表示 的 是 i 在 打 乱 后 
落 到 j 的 位 置 的 次 数 。 数 组 中 的 所 有 元 素 的 值 都 应 该 接近 于 N/M。 
1.1.37 ”糟糕 的 打 乱 。 假 设 在 我 们 的 乱 序 代码 中 你 选择 的 是 一 个 0 到 N-I 而 非 1 到 N-1 之 间 的 随机 整数 。 
证 明 得 到 的 结果 并 非 均 匀 地 分 布 在 N! 种 可 能 性 之 间 。 用 上 一 题 中 的 测试 检验 这 个 版 本 。 
1.1.38 二 分 查找 与 暴力 查找 。 根 据 1.1.10.4 节 给 出 的 暴力 查找 法 编写 一 个 程序 BruteForceSearch， 在 你 
的 计算 机 上 比较 它 和 BinarySearch 处 理 largeW.txt 和 largeT.txt 所 需 的 时 间 。 61 
1.1.39 随机 匹配 。 编 写 一 个 使 用 BinarySearch 的 程序 ， 它 从 命令 行 接受 一 个 整 型 参数 T， 并 会 分 别针 
对 和 N=10 、10*、10 和 10 将 以 下 实验 运行 了 遍 : 生成 两 个 大 小 为 的 随机 6 位 正 整数 数组 并 找 
出 同时 存在 于 两 个 数组 中 的 整数 的 数量 。 打 印 一 个 表格 ， 对 于 每 个 Y， 给 出 了 次 实验 中 该 数量 
的 平均 值 。 62 
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1.2 ”数据 抽象 


数据 类 型 指 的 是 一 组 值 和 一 组 对 这 些 值 的 操作 的 集合 。 目 前 ,我 们 已 经 详细 讨论 过 Java 的 原始 
数据 类 型 : 例如 , 原始 数据 类 型 int 的 取 值 范围 是 -2” 到 2 -1 之 间 的 整数 , int 的 操作 包括 +、*、-、 
/、%、< 和 >。 原 则 上 所 有 程序 都 只 需要 使 用 原始 数据 类 型 即 可 ,但 在 更 高 层次 的 抽象 上 编写 程序 
会 更 加 方便 。 在 本 节 中 ， 我 们 将 重点 学 习 定 义 和 使 用 数据 类 型 ， 这 个 过 程 也 被 称 为 数据 抽象 ( 它 是 
对 1.1 节 所 述 的 函数 抽象 风格 的 补充 ) 。 

Java 编程 的 基础 主要 是 使 用 class 关键 字 构造 被 称 为 引用 类 型 的 数据 类 型 。 这 种 编程 风格 也 称 
为 面向 对 象 编程 ， 因 为 它 的 核心 概念 是 对 象 ， 即 保存 了 某 个 数据 类 型 的 值 的 实体 。 如 果 只 有 Java 的 
原始 数据 类 型 ， 我 们 的 程序 会 在 很 大 程度 上 被 限制 在 算术 计算 上 ， 但 有 了 引用 类 型 ， 我 们 就 能 编写 
操作 字符 串 、 图 像 、 声 音 以 及 Java 的 标准 库 中 或 者 本 书 的 网 站 上 的 数 百 种 抽象 类 型 的 程序 。 比 各 种 
库 中 预定 义 的 数据 类 型 更 重要 的 是 Java 编程 中 的 数据 类 型 的 种 类 是 无 限 的 ， 因 为 你 能 够 定义 自己 的 
数据 类 型 来 抽象 任意 对 象 。 

抽象 数据 类 型 (ADT ) 是 一 种 能 够 对 使 用 者 隐藏 数据 表示 的 数据 类 型 。 用 Java 类 来 实现 抽象 
数据 类 型 和 用 一 组 静态 方法 实现 一 个 函数 库 并 没有 什么 不 同 。 抽 象 数据 类 型 的 主要 不 同 之 处 在 于 它 
将 数据 和 函数 的 实现 关联 ， 并 将 数据 的 表示 方式 隐藏 起 来 。 在 使 用 抽象 数据 类 型 时 ， 我 们 的 注意 力 
集中 在 API 描述 的 操作 上 而 不 会 去 关心 数据 的 表示 ; 在 实现 抽象 数据 类 型 时 ， 我 们 的 注意 力 集中 在 
数据 本 身 并 将 实现 对 该 数据 的 各 种 操作 。 

抽象 数据 类 型 之 所 以 重要 是 因为 在 程序 设计 上 它们 支持 封装 。 在 本 书 中 ， 我 们 将 通过 它们 : 
口 以 适用 于 各 种 用 途 的 API 形式 准确 地 定义 问题 ; 
口 用 API 的 实现 描述 算法 和 数据 结构 。 

我 们 研究 同一 个 问题 的 不 同 算法 的 主要 原因 在 于 它们 的 性 能 特点 不 同 。 抽 象 数据 类 型 正 适 合 于 
对 算法 的 这 种 研究 ， 因 为 它 确 保 我 们 可 以 随时 将 算法 性 能 的 知识 应 用 于 实践 中 : 可 以 在 不 修改 任何 
用 例 代码 的 情况 下 用 一 种 算法 蔡 换 另 一 种 算法 并 改进 所 有 用 例 的 性 能 。 


1.2.1 使 用 抽象 数据 类 型 

要 使 用 一 种 数据 类 型 并 不 一 定 非 得 知道 它 是 如 何 实现 的 ， 所 以 我 们 首先 来 编写 一 个 使 用 一 种 名 
为 Counter (计数 器 ) 的 简单 数据 类 型 的 程序 。 它 的 值 是 一 个 名 称 和 一 个 非 负 整数 ， 它 的 操作 有 创 
建 对 象 并 初始 化 为 0、 当 前 值 加 1 和 获取 当前 值 。 这 个 抽象 对 象 在 许多 场景 中 都 会 用 到 。 例 如 ， 这 
样 一 个 数据 类 型 可 以 用 于 电子 记 票 软件 ， 它 能 够 保证 投票 者 所 能 进行 的 唯一 操作 就 是 将 他 选择 的 候 
选 人 的 计数 器 加 一 。 我 们 也 可 以 在 分 析 算 法 性 能 时 使 用 Counter 来 记录 基本 操作 的 调用 次 数 。 要 使 
用 Counter 对 象 ， 首 先 需要 了 人 解 应 该 如 何 定义 数据 类 型 的 操作 ， 以 及 在 Java 语言 中 应 该 如 何 创建 
和 使 用 某 个 数据 类 型 的 对 象 。 这 些 机 制 在 现代 编程 中 都 非常 重要 ， 我 们 在 全 书 中 都 会 用 到 它们 ， 因 
此 请 仔细 学 习 我 们 的 第 一 个 例子 。 
1.2.1.1 抽象 数据 类 型 的 API 

我 们 使 用 应 用 程序 编程 接口 (API ) 来 说 明 抽 象 数据 类 型 的 行为 。 它 将 列 出 所 有 构造 函数 和 实 
倒 方 法 〈 即 操作 ) 并 简要 描述 它们 的 功用 ， 如 表 1.2.1 中 Counter 的 API 所 示 。 

尽管 数据 类 型 定义 的 基础 是 一 组 值 的 集合 ， 但 在 API 可 见 的 仅 是 对 它们 的 操作 ， 而 非 它们 的 意 
义 。 因 此 ， 抽 象 数据 类 型 的 定义 和 静态 方法 库 〈 请 见 1.1.6.3 节 ) 之 间 有 许多 共同 之 处 : 
口 两 者 的 实现 均 为 Java 类 ; 
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口 实例 方法 可 能 接受 0 个 或 多 个 指定 类 型 的 参数 ， 由 括号 表示 并 由 逗号 分 
口 它们 可 能 会 返回 一 个 指定 类 型 的 值 ， 也 可 能 不 会 (用 void 表示 ) 。 
当然 ， 它 们 也 有 三 个 显著 的 不 同 。 

口 API 中 可 能 会 出 现 若干 个 名 称 和 类 名 相同 且 没有 返回 值 的 函数 。 这 些 特殊 的 函数 被 称 为 构造 
函数 。 在 本 例 中 ，Counter 对 象 有 一 个 接受 一 个 String 参数 的 构造 函数 。 65 
口 实例 方法 不 需要 static 关键 字 。 它 们 不 是 静态 方法 一 一 它们 的 目的 就 是 操作 该 数据 类 型 中 
的 值 。 

口 某 些 实例 方法 的 存在 是 为 了 尊重 Java 的 习惯 一 一 我 们 将 此 类 方法 称 为 继承 的 方法 并 在 API 

中 将 它们 显示 为 灰色 。 


洱 


辣 ; 


表 1.2.1 计数 器 的 API 


public class Counter 


Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyO 该 对 象 创建 之 后 计数 器 被 加 1 的 次 数 
String toString() 对 象 的 字符 串 表 示 


和 静态 方法 库 的 API 一样， 抽象 数据 类 型 的 API 也 是 和 用 例 之 间 的 一 份 契 约 ， 因 此 它 是 开 
发 任何 用 例 代码 以 及 实现 任意 数据 类 型 的 起 点 。 在 本 例 中 ， 这 份 API 告诉 我 们 可 以 通过 构造 函数 
Counter()、 实 例 方法 increment() 和 tally()， 以 及 继承 的 toString0() 方法 使 用 Counter 类 
型 的 对 象 。 
1.2.1.2 ”继承 的 方法 

根据 Java 的 约定 ,任意 数据 类 型 都 能 通过 在 API 中 包含 特定 的 方法 从 Java 的 内 在 机 制 中 获 
益 。 例 如 ，Java 中 的 所 有 数据 类 型 都 会 继承 toString() 方法 来 返回 用 String 表示 的 该 类 型 的 
值 。Java 会 在 用 + 运算 符 将 任意 数据 类 型 的 值 和 String 值 连接 时 调用 该 方法 。 该 方法 的 默认 实 
现 并 不 实用 ( 它 会 返回 用 字符 串 表 示 的 该 数据 类 型 值 的 内 存 地 址 ) ， 因 此 我 们 常常 会 提供 实现 来 
重 载 默认 实现 ， 并 在 此 时 在 API 中 加 上 toString0Q 方法 。 此 类 方法 的 例子 还 包括 equals O 〇 、 
compareTo() 和 hashCode() (请 见 1.2.5.5 节 ) 。 
1.2.1.3 用例 代码 

和 基于 静态 方法 的 模块 化 编程 一 样 ，API 允许 我 们 在 不 知道 实现 细节 的 情况 下 编写 调用 它 的 代 
码 ( 以 及 在 不 知道 任何 用 例 代 码 的 情况 下 编写 实现 代码 ) 。1.1.7 节 介 绍 的 将 程序 组 织 为 独立 模块 的 
机 制 可 以 应 用 于 所 有 的 Java 类 ,因此 它 对 基于 抽象 数据 类 型 的 模块 化 编程 与 对 静态 函数 库 一 样 有 效 。 
这 样 ， 只 要 抽象 数据 类 型 的 源 代码 java 文件 和 我 们 的 程序 文件 在 同一 个 目录 下 ， 或 是 在 标准 Java 
库 中 ， 或 是 可 以 通过 import 语句 访问 ， 或 是 可 以 通过 本 书 网 站 上 介绍 的 classpath 机 制 之 一 访问 ， 
该 程序 就 能 够 使 用 这 个 抽象 数据 类 型 ， 模 块 化 编程 的 所 有 优势 就 都 能 够 继续 发 挥 。 通 过 将 实现 某 种 
数据 类 型 的 全 部 代码 封装 在 一 个 Java 类 中 ， 我 们 可 以 将 用 例 代 码 推 向 更 高 的 抽象 层次 。 在 用 例 代码 
中 ， 你 需要 声明 变量 、 创 建 对 象 来 保存 数据 类 型 的 值 并 允许 通过 实例 方法 来 操作 它们 。 尽 管 你 也 会 
注意 到 它们 的 一 些 相 似 之 处 ， 但 这 种 方式 和 原始 数据 类 型 的 使 用 方式 非常 不 同 。 66 
1.2.1.4 ”对象 

一 般 来 说 ， 可 以 声明 一 个 变量 heads 并 将 它 通过 以 下 代码 和 Counter 类 型 的 数据 关联 起 来 : 


Counter heads; 
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但 如 何 为 它 赋值 或 是 对 它 进行 操作 呢 ? 这 个 问题 的 答 
案 涉及 数据 抽象 中 的 一 个 基础 概念 : 对 象 是 能 够 承载 数据 类 
型 的 值 的 实体 。 所 有 对 象 都 有 三 大 重要 特性 : 状态 、 标 识 
和 行为 。 对 象 的 状态 即 数据 类 型 中 的 值 。 对 象 的 标识 能 够 将 
一 个 对 象 区 别 于 男 一 个 对 象 。 可 以 认为 对 象 的 标识 就 是 它 
在 内 存 中 的 位 置 。 对 象 的 行为 就 是 数据 类 型 的 操作 。 数 据 类 
型 的 实现 的 唯一 职责 就 是 维护 一 个 对 象 的 身份 ， 这 样 用 例 
代码 在 使 用 数据 类 型 时 只 需 遵守 描述 对 象 行为 的 API 即 可 ， 
而 无 需 关 注 对 象 状态 的 表示 方法 。 对 象 的 状态 可 以 为 用 例 代 
码 提 供 信 息 ， 或 是 产生 某 种 副作用 ， 或 是 被 数据 类 型 的 操作 
所 改变 。 但 数据 类 型 的 值 的 表示 细节 和 用 例 代码 是 无 关 的 。 
引用 是 访问 对 象 的 一 种 方式 。Java 使 用 术语 引用 类 型 以 示 
和 原始 数据 类 型 ( 变量 和 值 相 关联 ) 的 区 别 。 不 同 的 Java 


实现 中 引用 的 实现 细节 也 各 不 相同 ,但 可 以 认为 引用 就 是 内 
存 地 址 ， 如 图 1.2.1 所 示 ( 简洁 起 见 ， 图 中 的 内 存 地 址 为 三 
位 数 ) 。 

1.2.1.5 创建 对 象 


每 种 数据 类 型 中 的 值 都 存储 于 一 个 对 象 中 。 要 创建 (或 
实例 化 ) 一 个 对 象 ， 我 们 用 关键 字 new 并 紧 跟 类 名 以 及 QO 
(或 在 括号 中 指定 一 系列 的 参数 ， 如 果 构 造 函 数 需 要 的 话 ) 
来 触发 它 的 构造 函数 。 构 造 函 数 没有 返回 值 ， 因 为 它 总 是 返 
回 它 的 数据 类 型 的 对 象 的 引用 。 每 当 用 例 调 用 了 new()， 系 
统 都 会 : 

口 为 新 的 对 象 分 配 内 存 空间 ; 
口 调用 构造 函数 初始 化 对 象 中 的 值 ; 
口 返回 该 对 象 的 一 个 引用 。 


在 用 例 代码 中 ， 我 们 一 般 都 会 在 一 条 声明 语句 中 创建 一 个 对 象 并 通过 将 它 和 一 个 变量 
初始 化 该 变量 ， 和 使 用 原始 数据 类 型 时 一 样 。 和 原始 数据 类 型 不 同 的 是 ， 
而 并 非 数 据 类 型 的 值 本 身 。 我 们 可 以 用 同一 个 类 创建 无 数 对 象 一 一 每 个 对 象 都 有 自己 的 标识 ， 


引 


一 个 Counter 对 象 
区 一 3 
heads 


标识 


已 经 


460 


LL | 


两 个 Counter 对 象 


[1 


heads 
tails 


| 用 


(细节 
被 隐藏 ) 


heads 的 标识 


460 


Re 


tails 的 标识 


612 一 
| | 


] 2 


对 象 的 表示 


关联 来 
变量 关联 的 是 指向 对 象 的 


且 所 存储 的 值 和 另 一 个 相同 类 型 的 对 象 可 以 相同 也 可 以 不 同 。 例 如 ， 以 下 代码 创建 了 两 个 不 同 的 


Counter 对 象 : 


Counter heads 
Counter tails 


new Counter("heads"); 
new Counter("tails"); 


抽象 数据 类 型 向 用 例 隐藏 了 值 的 表示 细节 。 可 以 假定 每 个 Counter 对 象 中 的 值 是 一 个 String 
类 型 的 名 称 和 一 个 int 计数 器 ,但 不 能 编写 依赖 于 任何 特定 表示 方法 的 代码 ( 即使 知道 假定 是 否 
将 变量 和 对 象 的 引 确 一 一 也 许 计数 器 是 一 个 1ong 值 呢 ) 对 象 
用 关联 的 声明 语句 。 调用 构造 函数 来 创建 一 个 对 象 的 创建 过 程 如 图 1.2.2 所 示 。 
| | 1.2.1.6 ”调用 实例 方法 


Counter heads | = new Counter("heads"); 


多 


1.2.2 ”创建 对 象 值 ， 


实例 方法 的 意义 在 于 操作 数 扩 


居 类 型 


FP 的 


因此 Java 语言 提供 了 一 种 特别 的 机 制 来 
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触发 实例 方法 , 它 突 出 了 实例 方法 和 对 象 之 间 的 联系 。 人 一 声明 语句 
具体 来 说 ， 我 们 调用 一 个 实例 方法 的 方式 是 先 写 出 对 

象 的 变量 名 ， 紧 接着 是 一 个 句点 ， 然 后 是 实例 方法 的 
名 称 ， 之 后 是 0 个 或 多 个 在 括号 中 并 由 逗号 分 隔 的 参 
数 。 实 例 方法 可 能 会 改变 数据 类 型 中 的 值 ， 也 可 能 只 触发 构造 函数 (创建 一 个 对 象 ) 
是 访问 数据 类 型 中 的 值 。 实 例 方法 拥有 我 们 在 1.1.6.3 。 通过 语句 〈 没 有 返回 值 ) 

节 讨论 过 的 静态 方法 的 所 有 性 质 一 参数 按 值 传递 sss nerenen:O; 
方法 名 可 以 被 重 载 ， 方 法 可 以 有 返回 值 ， 它 们 也 许 还 对 象 名 人 

会 产生 一 些 副 作用 。 但 它们 还 有 一 个 特别 的 性 质 : 方 法 并 改变 对 象 的 值 

法 的 每 次 触发 都 是 和 一 个 对 象 相关 的 。 例 如 ， 以 下 代 通过 表达 式 

码 调用 了 实例 方法 increment() 来 操作 Counter 对 heads |j.tallyG)|- tails.tallyO) 


象 heads ( 在 这 里 该 操作 会 将 计数 器 的 值 加 1 ) : 1 
对 象 名 


通过 new 关 键 字 〈 触 发 构造 函数 ) 
heads =| new Counter ("heads"); 


触发 一 个 实例 方 
法 并 访问 对 象 的 值 


通过 自动 类 型 转换 (toString()) 
StdOut.println( |heads|); 


t 
触发 heads . toString@) 


heads.increment(); 

而 以 下 代码 会 调用 实例 方法 tallyQ 两 次 ， 第 一 
次 操作 的 是 Counter 对 象 heads， 第 二 次 是 Counter 
对 象 tai1s (这 里 该 操作 会 返回 计数 器 的 int 值 ) : 


heads.tally() - tails.tallyO; 


以 上 示例 的 调用 过 程 见 图 1.2.3。 a 
正如 这 些 例子 所 示 ,在 用 例 中 实例 方法 和 静态 方法 的 调用 方式 完全 相同 一 可 以 通过 语句 ( void 


方法 ) 也 可 以 通过 表达 式 ( 有 返回 值 的 方法 ) 。 毅 态 方法 的 主要 作用 是 实现 函数 ; 非 静态 〈 实 例 ) [68 


方法 的 主要 作用 是 实现 数据 类 型 的 操作 。 两 者 都 可 能 出 现在 用 例 代 码 中 , 但 很 容易 就 可 以 区 分 它们 ， 
因为 静态 方法 调用 的 开头 是 类 名 ( 按 习 惯 为 大 写 ) ， 而 非 静态 方法 调用 的 开头 总 是 对 象 名 ( 按 习惯 
为 小 写 ) 。 表 1.2.2 总 结 了 这 些 不 同 之 处 。 


表 1.2.2 实例 方法 与 静态 方法 


实例 方法 静态 方法 
举 伤 heads.increment() Math.sqrt(2.0) 
调用 方式 对 象 名 类 名 
参量 对 象 的 引用 和 方法 的 参数 方法 的 参数 
主要 作用 访问 或 改变 对 象 的 值 计算 返回 值 


1.2.1.7 ”使 用 对 象 
通过 声明 语句 可 以 将 变量 名 赋 给 对 象 ， 在 代码 中 ,我们 不 仅 可 以 用 该 变量 创建 对 象 和 调用 实例 
方法 ， 也 可 以 像 使 用 整数 、 浮 点 数 和 其 他 原始 数据 类 型 的 变量 一 样 使 用 它 。 要 开发 某 种 给 定数 据 类 
型 的 用 例 ， 我 们 需 
口 声明 该 类 型 的 变量 ， 以 用 来 引用 对 象 ; 
口 使 用 关键 字 new 触发 能 够 创建 该 类 型 的 对 象 的 一 个 构造 函数 ; 
口 使 用 变量 名 在 语句 或 表达 式 中 调用 实例 方法 。 
例如 ， 下 面 用 例 代码 中 的 Flips 类 就 使 用 了 Counter 类 。 它 接受 一 个 命令 行 参 数 T 并 模拟 
次 掷 硬币 〈 它 还 调用 了 StdRandom 类 ) 。 除 了 这 些 直接 用 法 外 ， 我 们 可 以 和 使 用 原始 数据 类 型 的 


变量 一 样 使 用 和 对 象 关联 的 变量 : 

口 赋值 语句 ; 

口 向 方法 传递 对 象 或 是 从 方法 中 返回 对 象 ; 
口 创建 并 使 用 对 象 的 数组 。 


public class Flips 


{ 


public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
om ce = O00 EI) 
if (StdRandom.bernoull1i(0.5)) 
heads.increment() ; 
else tails.increment() ; 
Stdout.printlnCheads) ; 
Stdout.printlnCtai1ls) ; 
int d = heads.tallyGO - tails.tallyO; 
StdOut.printlin("delta: ”+ Math.abs(d)); 


Counter 类 的 用 例 ， 模 拟 T 次 掷 硬币 


接 下 来 将 逐个 分 析 它 们 。 你 会 发 现 ， 你 需要 从 引用 而 非 值 的 
角度 去 考虑 问题 才能 理解 这 些 用 法 的 行为 。 
1.2.1.8 ”赋值 语句 
使 用 引用 类 型 的 赋值 语句 将 会 创建 该 引用 的 一 个 副本 。 赋 值 
语句 不 会 创建 新 的 对 象 ， 而 只 是 创建 另 一 个 指向 某 个 已 经 存在 的 
对 象 的 引用 。 这 种 情况 被 称 为 别名 : 两 个 变量 同时 指向 同一 个 对 
象 。 别 名 的 效果 可 能 会 出 乎 你 的 意料 ， 因 为 对 于 原始 数据 类 型 的 
变量 ， 情 况 不 同 ， 你 必须 理解 其 中 的 差异 。 如 果 x 和 y 是 原始 数 
据 类 型 的 变量 ， 那 么 赋值 语句 x = y 会 将 y 的 值 复制 到 x 中 。 对 
于 引用 类 型 ， 复 制 的 是 引用 《〈 而 非 实际 的 值 ) 。 在 Java 中 ， 别 名 
是 bug 的 常见 原因 ， 如 下 例 所 示 (图 1.2.4): 

Counter cl = new Counter("ones"); 

cl.incrementO); 

Counter c2 = cl1; 


c2.increment(); 
StdOut.println(c1); 


对 于 一 般 的 toStringQ 实现 ， 这 段 代 码 将 会 打印 出 "2 
ones"。 这 可 能 并 不 是 我 们 想 要 的 ， 而 且 乍 一 看 有 些 奇怪 。 这 种 
问题 经 常 出 现在 使 用 对 象 经 验 不 足 的 人 所 编写 的 程序 之 中 ( 可 能 
就 是 你 ， 所 以 请 集中 注意 力 ! ) 。 改 变 一 个 对 象 的 状态 将 会 影响 
到 所 有 和 该 对 象 的 别名 有 关 的 代码 。 我 们 习惯 于 认为 两 个 不 同 的 


pi 


[2 


% java Flips 10 
5 heads 
5 tails 


delta: 0 


Ei 


% java Flips 10 
8 heads 
2 tails 


delta: 6 


% java Flips 1000000 
499710 heads 

500290 tails 

delta: 580 


Counter cl; 

cl = new Counter("ones"); 
cl.increment(); 

Counter c2 = cl; 
c2.increment(); 


cl 指向 同一 个 
| 811 | 


G2 811 对 象 的 引用 


指向 "ones" 


的 引用 


图 1.2.4 别名 
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原始 数据 类 型 的 变量 是 相互 独立 的 ， 但 这 种 感觉 对 于 引用 类 型 的 变量 并 不 适用 。 69 
1.2.1.9 将 对 象 作为 参数 70 


可 以 将 对 象 作为 参数 传递 给 方法 ， 这 一 般 都 能 简化 用 例 代 码 。 例 如 ， 当 我 们 使 用 Counter 对 
象 作为 参数 时 ， 本 质 上 我 们 传递 的 是 一 个 名 称 和 一 个 计数 器 ， 但 我 们 只 需要 指定 一 个 变量 。 当 我 
们 调用 一 个 需要 参数 的 方法 时 ， 该 动作 在 Java 中 的 效果 相当 于 每 个 参数 值 都 出 现在 了 一 个 赋值 
语句 的 右 侧 ， 而 参数 名 则 在 该 赋值 语句 的 左 侧 。 也 就 是 说 ，Java 将 参数 值 的 一 个 副本 从 调用 端 
传递 给 了 方法 ， 这 种 方式 称 为 按 值 传递 ( 请 见 1.1.6.3 节 ) 。 这 种 方式 的 一 个 重要 后 果 是 方法 无 
法 改变 调用 端 变 量 的 值 。 对 于 原始 数据 类 型 来 说 ， 这 种 策略 正 是 我 们 所 期 望 的 ( 两 个 变量 互相 独 
立 ) ， 但 每 当 使 用 引用 类 型 作为 参数 时 我 们 创建 的 都 是 别名 ， 所 以 就 必须 小 心 。 换 句 话 说， 这 种 
约定 将 会 传递 引用 的 值 ( 复制 引用 ) ， 也 就 是 传递 对 象 的 引用 。 例 如 ， 如 果 我 们 传递 了 一 个 指向 
Counter 类 型 的 对 象 的 引用 ， 那 么 方法 虽然 无 法 改变 原始 的 引用 (〈 比如 将 它 指 向 另 一 个 Counter 
对 象 ) ， 但 它 能 够 改变 该 对 象 的 值 ， 比 如 通过 该 引用 调用 increment () 方法 。 
1.2.1.10 ”将 对 象 作为 返回 值 

当然 也 能 够 将 对 象 作为 方法 的 返回 值 。 方 法 可 以 将 它 的 参数 对 象 返回 ， 如 下 面 的 例子 所 示 ， 也 
可 以 创建 一 个 对 象 并 返回 它 的 引用 。 这 种 能 力 非常 重要 ， 因 为 Java 中 的 方法 只 能 有 一 个 返回 值 一 一 
有 了 对 象 我 们 的 代码 实际 上 就 能 返回 多 个 值 。 


public class FlipsMax 
{ 
public static Counter max(Counter x, Counter y) 
netallv OO Vtall OD net 
else return y; 


} 


public static void main(String[] args) 

这 
int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
Eom mt ot = Ot Te) 

if (StdRandom.bernoull1i(0.5)) 
heads.increment(); 


2 FlipsMax 1 
2 lavas hub Ma L000090 else tails.increment(); 


500281 tails wins 
if (heads.tallyO == tails.tallyO) 
StdOut.printin("Tie"); 
else Stdout.printlnCmax(Cheads，tails) + " wins"); 
} 
} 


一 个 接受 对 象 作为 参数 并 将 对 象 作为 返回 值 的 静态 方法 的 例子 71 


1.2.1.11 数组 也 是 对 象 

在 Java 中 ， 所 有 非 原 始 数据 类 型 的 值 都 是 对 象 。 也 就 是 说 ， 数 组 也 是 对 象 。 和 字符 串 一 样 ， 
Java 语言 对 于 数组 的 某 些 操 作 有 特殊 的 支持 : 声明 、 初 始 化 和 索引 。 和 其 他 对 象 一 样 ， 当 我 们 将 数 
组 传递 给 一 个 方法 或 是 将 一 个 数组 变量 放 在 赋值 语句 的 右 侧 时 ， 我 们 都 是 在 创建 该 数组 引用 的 一 个 
副本 ， 而 非 数组 的 副本 。 对 于 一 般 情况 ， 这 种 效果 正 合适 ， 因 为 我 们 期 望 方法 能 够 重新 安排 数组 的 
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72 


73 


条 目 并 修改 数组 的 内 容 ， 如 java.uti1.Array.sort() 或 表 1.1 
1.2.1.12 ”对象 的 数组 


.10 讨论 的 shuffle(0) 方法 。 


我 们 已 经 看 到 ， 数 组 元 素 可 以 是 任意 类 型 的 数据 : 我 们 实现 的 mainQ 方法 的 args[] 参数 就 
是 一 个 String 对 象 的 数组 。 创 建 一 个 对 象 的 数组 需要 以 下 两 个 步骤 : 


口 使 用 方 括号 语法 调用 数组 的 构造 函数 创建 数组 ; 
吕 对 于 每 个 数组 元 素 调用 它 的 构造 函数 创建 相应 的 对 象 。 


例如 ， 下 面 这 段 代 码 模拟 的 是 掷 仍 子 。 它 使 用 了 一 个 Counter 对 
的 出 现 次数 。 在 Java 中 ， 对 象 数组 即 是 一 个 由 对 象 的 引用 组 成 的 数组 


} 象 的 数组 来 记录 每 种 可 能 的 值 
|， 而 非 所 有 对 象 本 身 组 成 的 数 


组 。 如 果 对 象 非常 大 , 那么 在 移动 它们 时 由 于 只 需要 操作 引用 而 非 对 象 本 身 ， 这 就 会 大 大 提高 效率 ; 
如 果 对 象 很 小 ， 每 次 获取 信息 时 都 需要 通过 引用 反而 会 降低 效率 。 


public class Rolls 
{ 
public static void main(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
MSTDESS= 6 
Counter[] rolls = new Counter[SIDES+1]; 
for (Cint 1 = 1 1 <= SIDES i++) 
rolls[i] = new Counter(i + "'s"); 


om mt te Oe Ee) 

下 
int result = StdRandom.uniform(1, SIDES+1); 
rolls[result].increment(); 

} 

for (int 1 = 1; i1 <= SIDES; i++) 
StdqdOue bruntlneron si 


模拟 TT 次 拨 骨 子 的 Counter 对 象 的 用 例 


% java Rolls 1000000 
T7300s 

166540 2's 
166087 3's 
167051 4's 
166422 5's 
166592 6's 


有 了 这 些 对 象 的 知识 ,运用 数据 抽象 的 思想 编写 代码 ( 定义 和 使 用 数据 类 型 ， 将 数据 类 型 的 


值 封装 在 对 象 中 ) 的 方式 称 为 面向 对 象 编程 。 刚 才学 习 的 基本 概念 是 我 们 本 


i 向 对 象 编程 的 起 点 ， 


因此 有 必要 对 它们 进行 简单 的 总 结 。 数 据 类 型 指 的 是 一 组 值 和 一 组 对 值 的 操作 的 集合 。 我 们 会 将 
是 能 够 存储 任意 该 数据 类 型 的 值 的 
实体 ， 或 数据 类 型 的 实 何 。 对 象 有 三 大 关键 性 质 ， 状 态 、 标 识 和 行为 。 一 个 数据 类 型 的 实现 所 支 


数据 类 型 实现 在 独立 的 Java 类 模块 中 并 编写 它们 的 用 例 。 对 象 


持 的 操作 如 下 。 


值 并 返回 对 它 的 引用 。 


实例 方法 来 对 对 象 中 的 值 进行 操作 。 


返回 ， 只 是 变量 关联 的 是 对 象 的 引用 而 非 对 象 本 刁 。 


口 操作 对 象 中 的 值 (控制 对 象 的 行为 ， 可 能 会 改变 对 象 的 状态 ) : 使 用 和 对 象 关联 的 变量 j 


口 创建 对 象 〈 创造 它 的 标识 ) : 使 用 new 关键 字 触 发 构造 函数 并 创建 对 象 ， 初 始 化 对 象 中 的 


周 用 


口 操作 多 个 对 象 : 创建 对 象 的 数组 ， 像 原始 数据 类 型 的 值 一 样 将 它们 传递 给 方法 或 是 从 方法 中 


这 些 能 力 是 这 种 灵活 且 应 用 广泛 的 现代 编程 方式 的 基础 , 也 是 我 们 在 本 书 中 对 算法 研究 的 基础 。 
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1.2.2 ”抽象 数据 类 型 举例 

Java 语 言 内 置 了 上 千 种 抽象 数据 类 型 , 我 们 也 会 为 了 辅助 算法 研究 创建 许多 其 他 抽象 数据 类 型 。 
实际 上 ， 我们 编写 的 每 一 个 Java 程序 实现 的 都 是 某 种 数据 类 型 ( 或 是 一 个 静态 方法 库 ) 。 为 了 控制 
复杂 度 ， 我 们 会 明确 地 说 明 在 本 书 中 用 到 的 所 有 抽象 数据 类 型 的 API ( 实际 上 并 不 多 ) 。 

在 本 节 中 ， 我 们 会 举 一 些 抽象 数据 类 型 的 例子 ， 以 及 它们 的 一 些 用 例 。 在 某 些 情况 下 ， 我 们 会 
节选 一 些 含 有 数 十 个 方法 的 API 的 一 部 分 。 我 们 将 会 用 这 些 API 展示 一 些 实例 以 及 在 本 书 中 会 用 到 
的 一 些 方法 ， 并 用 它们 说 明 要 使 用 一 个 抽象 数据 类 型 并 不 需要 了 解 其 实现 细节 。 
作为 参考 ， 下 页 显示 了 我 们 在 本 书 中 将 会 用 到 或 开发 的 所 有 数据 类 型 。 它 们 可 以 被 分 为 以 下 
几 类 。 
口 java.1ang.* 中 的 标准 系统 抽象 数据 类 型 ， 可 以 被 任意 Java 程序 调用 。 

口 Java 标准 库 中 的 抽象 数据 类 型 ， 如 java.swt、java.net 和 java.io， 它 们 也 可 以 被 任意 Java 程 

序 调用 ， 但 需要 import 语句 。 

口 IO 处 理 类 抽象 数据 类 型 ， 和 StdIn 和 StdOut 类 似 ， 人 允许 我 们 处 理 多 个 输入 输出 流 。 

口 面向 数据 类 抽象 数据 类 型 ， 它 们 的 主要 作用 是 通过 封装 数据 的 表示 简化 数据 的 组 织 和 处 理 。 
稍 后 在 本 节 中 我 们 将 介绍 在 计算 几何 和 信息 处 理 中 的 几 个 实际 应 用 的 例子 ， 并 会 在 以 后 将 它 
们 作为 抽象 数据 类 型 用 例 的 范例 。 

口 集合 类 抽象 数据 类 型 , 它们 的 主要 用 途 是 简化 对 同一 类 型 的 一 组 数据 的 操作 。 我 们 将 会 在 1.3 
节 中 介绍 基本 的 Bag、Stack 和 Queue 类 , 在 第 2 章 中 介绍 优先 队列 (PQ ) 及 其 相关 的 类 ， 
在 第 3 章 和 第 5 章 中 分 别 介 绍 符号 表 ( ST ) 和 集合 (SET ) 以 及 相关 的 类 。 

口 面向 操作 的 抽象 数据 类 型 ， 我 们 用 它们 分 析 各 种 算法 ， 如 1.4 节 和 1.5 节 所 述 。 

口 图 算法 相关 的 抽象 数据 类 型 ， 它 们 包括 一 些 用 来 封装 各 种 图 的 表示 的 面向 数据 的 抽象 数据 类 

型 ， 和 一 些 提供 图 的 处 理 算法 的 面向 操作 的 抽象 数据 类 型 。 

这 个 列表 中 并 没有 包含 我 们 将 在 练习 中 遇 到 的 某 些 抽象 数据 类 型 ， 读 者 可 以 在 本 书 的 索引 中 找 
到 它们 。 另 外 , 如 1.2.4.1 节 所 述 , 我 们 常常 通过 描述 性 的 前 缀 来 区 分 各 种 抽象 数据 类 型 的 多 种 实现 。 
从 整体 上 来 说 ,我 们 使 用 的 抽象 数据 类 型 说 明 组 织 并 理解 你 所 使 用 的 数据 结构 是 现代 编程 中 的 重要 
因素 。 

一 般 的 应 用 程序 可 能 只 会 使 用 这 些 抽象 数据 类 型 中 的 5 ~ 10 个 。 在 本 书 中 ， 开 发 和 组 织 抽象 


数据 类 型 的 主要 目标 是 使 程序 员 们 在 编写 用 例 时 能 够 轻易 地 利用 它们 的 一 小 部 分 。 74 


1.2.2.1 几何 对 象 

面向 对 象 编程 的 一 个 典型 例子 是 为 几何 对 象 设计 数据 类 型 。 例 如 ， 表 1.2.3 至 表 1.2.5 中 的 API 
为 三 种 常见 的 几何 对 象 定义 了 相应 的 抽象 数据 类 型 : Point2D (平面 上 的 点 ) 、Interval1D ( 直线 
上 的 间隔 ) 、Interval12D《〈 平 面 上 的 二 维 间隔 ， 即 和 数 轴 对 齐 的 长 方形 ) 。 和 以 前 一 样 ， 这 些 API 
都 是 自 文档 化 的 ， 它 们 的 用 例 十 分 容易 理解 ， 列 在 了 表 1.2.5 的 后 面 。 这 段 代 码 从 命令 行 读 取 一 个 
Interval12D 的 边界 和 一 个 整数 了 ,在 单位 正方 形 内 随机 生成 了 个 点 并 统计 落 在 间隔 之 内 的 点 数 (用 
来 估计 该 长 方形 的 面积 ) 。 为 了 表现 效果 ， 用 例 还 画 出 了 间隔 和 落 在 间隔 之 外 的 所 有 点 。 这 种 计算 
方法 是 一 个 模型 , 它 将 计算 几何 图 形 的 面积 和 体积 的 问题 转化 为 了 判定 一 个 点 是 否 落 在 该 图 形 中 ( 稍 
稍 简单 , 但 仍然 不 那么 容易 ) 。 我 们 当然 也 能 为 其 他 几何 对 象 定 义 API， 比 如 线段 、 三 角形 、 多 边 形 、 
同等 ， 不 过 实现 它们 的 相关 操作 可 能 十 分 有 挑战 性 。 本 节 末 尾 的 练习 会 考察 其 中 几 个 例子 。 
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java.lang 中 的 标准 Java 系统 类 型 


Integer int 的 封装 类 
Double double 的 封装 类 
String 可 由 索引 访问 的 
char 值 序列 
StringBuilder 字符 串 构 造 类 
其 他 Java 数据 类 型 
java.awt.Color 颜色 
java.awt.Font 字体 
java.net.URL URL 
java.io.File 文件 
我 们 的 标准 MO 类 型 
In 输入 流 
Out 输出 流 
Draw 绘图 类 


用 于 用 例 的 面向 数据 的 数据 类 型 


Point2D 平面 上 的 点 
IntervallD 一 维 间隔 
Interva12D 二 维 间隔 
Date 日 期 
Transaction 交易 

用 于 算法 分 析 的 数据 类 型 
Counter 计数 器 
Accumulator 累加 占 
VisualAccumulator ”可 视 累 加 器 
Stopwatch 计时 器 


集合 类 数据 类 型 

Stack 下 压 栈 

Queue 先进 先 出 ( FIFO ) 队列 
Bag 包 

MinPQ，MaxPQ 优先 队列 
IndexMinPQ IndexMaxPQ ”索引 优先 队列 

ST 竺 号 表 

SET 集合 

StringST 符号 表 (字符 串 键 ) 
面向 数据 的 图 数据 类 型 

Graph 无 向 图 

Digraph 有 向 网 

Edge 边 ( 加权) 
EdgeWeightedGraph 无 向 图 (加权) 
DirectedEdge 边 (有 向 ， 加 权 ) 
EdgeWeightedDigraph 图 (有 向 ， 加权 ) 
面向 操作 的 图 数据 类 型 

UF 动态 连通 性 
DepthFirstPaths 路 径 的 深度 优先 搜索 
GE 连通 分 量 
BreadthFirstPaths 路 径 的 广度 优先 搜索 


DirectedDFS 
DirectedBFS 
TransitiveClosure 
Topological 
DepthFirstOrder 


有 向 图 路 径 的 深度 优先 搜索 
有 向 图 路 径 的 广度 优先 搜索 
所 有 路 径 
拓扑 排序 

深度 优先 搜索 顶点 被 访问 的 


DirectedCycle 环 的 搜索 
SCC 强 连通 分 量 
MST 最 小 生成 树 
SP 最 短路 径 
本 书 中 使 用 的 部 分 抽象 数据 类 型 
平面 上 的 点 的 API 
public class Point2D 
Point2D(Cdouble x, double y) 创建 一 个 点 

double xO X 坐标 

double yO yp 坐标 

double rQO 极 径 〈 极 坐标 

double theta(Q) 极 角 ( 极 坐 标 

double distTo(Point2D that) 从 该 点 到 that 的 欧 几 里 得 距离 


void draw(Q) 


用 StdDraw 绘 出 该 点 
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表 1.2.4 直线 上 间隔 的 API 


public class IntervallD 


IntervallD(double 1o, double hi) 创建 一 个 间隔 
double lengthO) 间隔 长 度 
boolean contains(double x) x 是 否 在 间隔 中 
boolean intersect(IntervallD that) 该 间隔 是 否 和 间隔 that 相交 
void drawO) j StdDraw 绘 出 该 间隔 


表 1.2.5 平面 上 的 二 维 间 隔 的 API 


public class Interval2D 


Interval2D(IntervallD x, IntervallD y) 创建 一 个 二 维 间 隔 
double area(Q) 二 维 间隔 的 面积 
boolean contains(Point2D p) p 是 否 在 二 维 间隔 中 
boolean intersect(Interval2D that) 该 间隔 是 否 和 二 维 间 隔 that 相交 
void drawO) StdDraw 绘 出 该 二 维 间隔 


public static void main(String[] args) 
{ 


double xlo Double.parseDouble(args[0]); 


double xhi = Double.parseDouble(args[1]); 
double ylo = Double.parseDouble(args[2]); 
double yhi = Double.parseDouble(args[3]); 


int T = Integer.parseInt(args[4]); 


IntervallD xinterval = new IntervallD(xlo, xhi); 
IntervallD yinterval = new IntervallD(ylo, yhi); 
Interval2D box = new Interval2D(xinterval, yinterval); 
box.draw() ; 


Counter c = new Counter("hits"); 
forint t= 0 < Te tt) 
{ 
double x = Math.random() ; 
double y = Math.random() ; 
Point2D p = new Point2D(x, y); 
if (box.contains(p)) c.increment(); 
else p.drawO; 


} 


StaOues pre en : 
StdOut.println(box.area()); % java Interval2D .2 .5 .5 .6 10000 
297 hits 


.03 
Interva12D 的 测试 用 例 


处 理 几 何 对 象 的 程序 在 自然 世界 模型 、 科 学 计算 、 电 子 游戏 、 电 影 等 许多 应 用 的 计算 中 有 着 广 
泛 的 应 用 。 此 类 程序 的 研发 已 经 发 展 成 了 计算 几何 学 的 这 门 影 响 深远 的 研究 学 科 。 在 贯穿 全 书 的 众 
多 例子 中 你 会 看 到 ， 我 们 在 本 书 中 学 习 的 许多 算法 在 这 个 领域 都 有 应 用 。 在 这 里 我 们 要 说 明 的 是 直 
接 表 示 几 何 对 象 的 抽象 数据 类 型 的 定义 并 不 困难 有 旦 在 用 例 中 的 应 用 也 十 分 简洁 。 本 书 网 站 和 本 节 末 | 76 
尾 的 若干 练习 都 证 明了 这 一 点 。 77 
1.2.2.2 ”信息 处 理 

无 论 是 需要 处 理 数 百 万 信用 卡 交 易 的 银行 ， 还 是 需要 处 理 数 十 亿 点 击 的 网 络 分 析 公 司 ， 或 是 需 
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要 处 理 数 百 万 实验 观察 结果 的 科学 研究 小 组 ， 无 数 应 用 的 核心 都 是 组 织 和 处 理 信息 。 抽 象 数 据 类 型 
是 组 织 信息 的 一 种 自然 方式 。 虽 然 没 有 给 出 细节 ， 表 1.2.6 中 的 两 份 API 也 展示 了 商业 应 用 程序 中 
的 一 种 典型 做 法 。 这 里 的 主要 思想 是 定义 和 真实 世界 中 的 物体 相对 应 的 对 象 。 一 个 日 期 就 是 一 个 日 、 
月 和 年 的 集合 ， 一 笔 交 易 就 是 一 个 客户 、 日 期 和 金额 的 集合 。 这 只 是 两 个 例子 ,我 们 也 可 以 为 客户 、 
时 间 、 地 点 、 商 品 、 服 务 和 其 他 任何 东西 定义 对 象 以 保存 相关 的 信息 。 每 种 数据 类 型 都 包含 能 够 创 
建 对 象 的 构造 函数 和 用 于 访问 其 中 数据 的 方法 。 为 了 简化 用 例 的 代码 ， 我 们 为 每 个 类 型 都 提供 了 两 
个 构造 函数 , 一 个 接受 适当 类 型 的 数据 , 另 一 个 则 能 够 解析 字符 串 中 的 数据 ( 细节 请 见 练习 1.2.19 ) 。 
和 以 前 一 样 ， 用 例 并 不 需要 知道 数据 的 表示 方法 。 用 这 种 方式 组 织 数据 最 常见 的 理由 是 将 一 个 对 象 
和 它 相 关 的 数据 变 成 一 个 整体 : 我 们 可 以 维护 一 个 Transaction 对 象 的 数组 ， 将 Date 值 作为 参数 
或 是 某 个 方法 的 返回 值 等 。 这 些 数据 类 型 的 重点 在 于 封装 数据 ， 同 时 它们 也 可 以 确保 用 例 的 代码 不 
依赖 于 数据 的 表示 方法 。 我 们 不 会 深究 这 种 组 织 信 息 的 方式 ， 需 要 注意 的 只 是 这 种 做 法 ， 以 及 实现 
继承 的 方法 toString()、compareTo()、equals() 和 hashCode() 可 以 使 我 们 的 算法 处 理 任意 类 
型 的 数据 。 我 们 会 在 1.2.5.4 节 中 详细 讨论 继承 的 方法 。 例 如 ,我 们 已 经 注意 到 ， 根 据 Java 的 习惯 ， 
在 数据 结构 中 包含 一 个 toString() 的 实现 可 以 帮助 用 例 打 印 出 由 对 象 中 的 值 组 成 的 一 个 字符 串 。 
我 们 会 在 1.3 节 、2.5 节 、3.4 节 和 3.5 节 中 用 Date 类 和 Transaction 类 作为 例子 考察 其 他 继承 的 
方法 所 对 应 的 习惯 用 法 。1.3 节 给 出 了 有 关 数 据 类 型 和 Java 语言 的 类 型 参数 ( 泛 型 ) 机 制 的 几 个 经 
典 例子 ， 它 们 都 遵循 了 这 些 习惯 用 法 。 第 2 章 和 第 3 章 也 都 利用 了 泛 型 和 继承 的 方法 来 实现 可 以 处 
理 任意 数据 类 型 的 高 效 排序 和 查找 算法 。 


表 1.2.6 商业 应 用 程序 中 的 示例 APl (日 期 和 交易 ) 


public class Date implements Comparable<Date> 


Date(int month, int day, int year) 创建 一 个 日 期 
Date(String date) 创建 一 个 日 期 (解析 字符 串 的 构造 函数 ) 
int monthO) 月 
int dayQO 日 
int yearQO) 年 
String toStringO) 对 象 的 字符 串 表示 
boolean equals(Object that) 该 日 期 和 that 是 否 相同 
int compareTo(Date that) 将 该 日 期 和 that 比较 
int hashCode() 散 列 值 


public class Transaction implements Comparable<Transaction> 


Transaction(String who, Date when, 
double amount) 


Transaction(String transaction) 创建 一 笔 交 易 〈 解析 字符 串 的 构造 函数 ) 
String who() 客户 名 
Date when() 交易 日 期 
double amount() 交易 金额 
String toStringO) 对 象 的 字符 串 表示 
boolean equals(Object that) 该 笔 交 易 和 that 是 否 相 同 
int compareTo(Transaction that) 将 该 笔 交 易 和 that 比较 


int hashCodeQO 散 列 值 
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每 当 遇 到 逻辑 上 相关 的 不 同类 型 的 数据 时 ， 你 都 应 该 考虑 像 刚才 的 例子 那样 定义 一 个 抽象 数据 
类 型 。 这 么 做 能 够 帮助 我 们 组 织 数据 并 在 一 般 应 用 程序 中 极 大 地 简化 使 用 者 的 代码 。 它 是 我 们 在 通 有 
向 数据 抽象 之 路 上 迈 出 的 重要 一 步 。 1 
1.2.2.3 ”字符 串 

Java 的 String 是 一 种 重要 而 实用 的 抽象 数据 类 型 。 一 个 String 值 是 一 串 可 以 由 索引 访问 的 
char 值 。String 对 象 拥 有 许多 实例 方法 ， 如 表 1.2.7 所 示 。 


表 1.2.7 Java 的 字符 串 API (部分) 


Public class String 


StringO) 创建 一 个 空 字符 串 
int 1engthO) 字符 串 长 度 
int charAtCint i) 第 i 个 字符 
int indexOf(String p) p 第 一 次 出 现 的 位 置 (如果 没有 则 返回 -1 ) 
int indexOf(String p, int i) p 在 i 个 字符 后 第 一 次 出 现 的 位 置 (如 果 没 有 则 返回 -1 ) 
String concat(String t) 将 七 附 在 该 字符 串 末 尾 
String substring(int i, int j) 该 字符 串 的 子 字符 串 (第 i 个 字符 到 第 j-1 个 字符 ) 
String[] split(String delim) 更 用 de1im 分 隔 符 切 分 字符 串 
int compareTo(String t) 比较 字符 串 
boolean equals(String t) 该 字符 串 的 值 和 + 的 值 是 否 相同 
int hashCode() 散 列 值 


String 值 和 字符 数组 类 似 ,但 两 者 是 不 同 的 。 数 组 能 够 通过 Java 语言 的 内 置 语法 访问 每 个 字 
符 ，String 则 为 索引 访问 、 字 符 串 长 度 以 及 其 他 许多 操作 准备 了 实例 方法 。 另 一 方面 ，Java 语言 
为 String 的 初始 化 和 连接 提供 了 特别 的 支持 : 我 们 可 以 直接 使 用 字符 串 字 面 量 而 非 构 造 函 数 来 创 
建 并 初始 化 一 个 字符 串 ， 还 可 以 直接 使 用 + 运算 符 代替 concat 0 方法。 我们 不 需要 了 解 实现 的 细 
节 , 但 是 在 第 5 章 中 你 会 看 到 ， 了 解 某 些 方法 的 性 能 特点 


String a = "now is "; 
在 开发 字符 串 处 理 算法 时 是 非常 重要 的 。 为 什么 不 直接 使 we 人 time “; 
用 字符 数组 代替 String 值 ? 对 于 任何 抽象 数据 类 型 ， 这 方法 | 返回 值 
个 问题 的 答案 都 是 一 样 的 : 为 了 使 代码 更 加 简洁 清晰 。 有 a.lengthO 7 
了 String 类 型 ， 我 们 可 以 写 出 清晰 干净 的 用 例 代 码 而 无 a.charAt(4) | 1 
需 关心 字符 串 的 表示 方式 。 先 看 一 下 右 侧 这 段 短 小 的 列表 ， et 


ee 、 ee 、 a.indexOf("is") | 4 


才能 实现 的 强大 操作 。 例 如 ，sp1itQ 方法 的 参数 可 以 是 a.splitC" ")[0] | "now" 

正则 表达 式 (请 见 5.4 节 ) ,，“ 上 典型 的 字符 串 处 理 代码 ”( 显 a.splitC” )[1 | “is 

_ 、 b.equals(c) false 

示 在 下 页 ) 中 sp1litQ 的 参数 是 "\s+"， 它 表示 “一 个 或 

多 个 制 表 符 、 空 格 、 换 行 符 或 回 车 ”。 字符 串 操作 举例 80 
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住 务 实 现 
判断 字符 串 是 否 是 一 条 回 文 public static boolean isPalindrome(String s) 


int N = s.lengt 


hO; 


for (int i = 0; i < N/2; i++) 
t(i) != s.charAt(N-1-1)) 


if (s.charA 
return 
return true; 
从 一 个 命令 行 参数 中 提取 文件 名 和 ”String s = args[0]; 
扩展 名 int dot = s.indexOf 


String extension = 


th 


J 印 出 标准 输入 中 所 有 含有 通过 命 String query = args 
令 行 指定 的 字符 串 的 行 while (!StdIn.isEmp 
{ 


String s = StdIn.readLine() ; 


false; 


Cy 


String base = s.substring(0, dot); 


s.substring(dot + 1, s.lengthO)); 


[0] ; 
tyO) 


if (s.contains(query)) StdOut.println(s); 


} 


I stdIn 中 创 String input = StdIn.readA110) ; 
建 一 个 字符 串 数 String[] words = input.split("\\s+"); 


检查 一 个 字符 串 数组 中 的 元 素 是 否 public boolean isSorted(String[] a) 


已 按照 字母 表 顺 序 排列 { 


for (int 1 = 1; i < a.length; i++) 


if (a[i-1].compareTo(a[i]) > 0) 


return 


} 


return trues 


false; 


典型 的 字符 串 处 理 代码 


1.2.2.4 ”再 谈 输 入 输出 


1.1 节 中 的 StdImm、StdOut 和 StdDraw 标准 库 的 


个 缺点 是 对 于 任意 程序 ， 我 们 只 能 接受 一 个 


输入 文件 、 向 一 个 文件 输出 或 是 产生 一 幅 图 像 。 有 了 国 


一 个 程序 中 同时 处 理 多 个 输入 流 、 输 出 流 和 图 像 。 具 


ij 向 对 象 编程 ， 我 们 就 能 定义 类 似 的 机 制 来 在 


体 来 说 ， 我 们 的 标准 库 定 义 了 数据 类 型 In、 
out 和 Draw， 它 们 的 API 如 表 1.2.8 至 表 1.2.10 所 示 。 当 使 用 一 个 String 类 型 的 参数 调用 它们 的 
构造 函数 时 ，In 和 0ut 会 首先 尝试 在 当前 目录 下 查找 指定 的 文件 。 i 它 会 假设 该 参数 


是 一 个 网 站 的 名 称 并 尝试 连接 到 那个 网 站 ( 如 果 该 网 站 不 存在 ， 


它 会 抛 出 一 个 运行 时 异常 ) 。 无 论 


哪 种 情况 ， A 所 有 read*() 和 


print*0 方法 都 会 指向 那个 文件 或 网 站 ( 如 果 你 使 


的 输入 输出 流 ) 。 这 种 机 制 使 得 单个 程序 能 够 处 理 多 个 文件 和 图 像 ; 
0 作为 方法 的 返回 值 或 是 创建 它们 的 数组 ， 可 以 像 操 作 任 何 类 型 的 对 象 那样 


操作 它们 。 下 页 所 示 的 程序 Cat 就 是 一 个 In 和 Out 的 用 例 ， 它 使 
件 归 并 到 同一 个 输出 文件 中 。In 和 0ut 类 也 包括 将 仅 含 int、double 或 String 类 型 值 的 文件 读 


取 为 一 个 数组 的 静态 方法 (请 见 1.3.1.5 节 和 练习 1.2.1 


$5) o 


] 的 是 无 参数 的 构造 函数 ， 对 象 将 会 使 用 标准 


你 也 能 将 这 些 对 象 赋 给 变量 ， 


Hk 


j 了 多 个 输入 流 来 将 多 个 输入 文 
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public class Cat 


{ 
public static void main(String[] args) 
{ // 将 所 有 输入 文件 复制 到 输出 流 (最 后 一 个 参数 ) 中 Go Oe 
Out out = new Out(args[args.length-1]); TG a 
for (int 1 = 0; i < args.length - 1; i++) 
{ // 将 第 i 个 输入 文件 复制 到 输出 流 中 % more in2.txt 
In in = new In(args[i]); a tiny 
Stringe se = neadATls test. 
out.println(s); 
in.closeQ); avan Catelnle tn Ext ou xt 
} % more out.txt 
out.close() ; Ts cs 
} a tiny 
和 
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In 和 0ut 的 用 例 示例 


表 1.2.8 我 们 的 输入 流 数据 类 型 的 API 


public class In 


InO) 从 标准 输入 创建 输入 流 
In(String name) 从 文件 或 网 站 创建 输入 流 
boolean isEmpty() 如 果 输 入 流 为 空 则 返回 true， 和 否则 返回 false 
int readInt() 读 取 一 个 int 类 型 的 值 
double readDouble(Q) 读 取 一 个 double 类 型 的 值 
void close() 关闭 输入 流 


注 : In 对 象 也 支持 StdIn 所 支持 的 所 有 操作 。 


表 1.2.9 我 们 的 输出 流 数据 类 型 的 API 


public class Out 


OutO) 从 标准 输出 创建 输出 流 
Out(String name) 从 文件 创建 输出 流 
void print(String s) 将 s 添加 到 输出 流 中 
void printin(String s) 将 s 和 一 个 换行 符 添加 到 输出 流 中 
void printinQO) 将 一 个 换行 符 添加 到 输出 流 中 
void printf(CString f, ...) 格式 化 并 打印 到 输出 流 中 
void close() 关闭 输出 流 


注 : Out 对 象 也 支持 StdOut 所 支持 的 所 有 操作 。 


表 1.2.10 我们 的 绘图 数据 类 型 的 API 
public class Draw 
Draw() 
void line(double x0, double y0, double x1, double y1) 
void point(double x, double y) 


注 : Draw 对 象 也 支持 StdDraw 所 支持 的 所 有 操作 。 83 
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1.2.3 ”抽象 数据 类 型 的 实现 


和 前 


态 方法 库 一 样 ， 我 们 也 需要 使 用 Java 的 类 ( class ) 实现 抽象 数据 类 型 并 将 所 有 代码 放 人 


一 个 和 类 名 相同 并 带 有 .java 扩展 名 的 文件 中 。 文 件 的 第 一 部 分 语句 会 定义 表示 数据 类 型 的 值 的 实 


例 变量 。 它们 之 后 是 实现 对 数据 类 型 的 值 的 操作 的 构造 函数 和 实例 方法 。 实 
API 中 说 明 ) 或 是 私有 的 〈 用 于 畏 


网 方法 可 以 是 公共 的 (在 


和 助 计算 ， 用 例 无 法 使 用 ) 。 一 个 数据 类 型 的 定义 中 可 能 含有 多 个 


构造 函数 ， 而 且 也 可 能 含有 静态 方法 ， 特 别 是 单元 测试 用 例 main()， 它 通常 在 调试 和 测试 中 很 实 
用 。 作 为 第 一 个 例子 ， 我 们 来 学 习 1.2.1.1 节 定 义 的 


Counter 抽象 数据 类 型 的 实现 。 它 的 完整 实现 ( 带 有 


注释 ) 如 图 1.2.5 所 示 , 在 对 它 的 各 个 部 分 的 讨论 中 ， 


实例 变 
量 的 声明 


我 们 还 将 该 图 作为 参考 。 本 书后 男 
据 类 型 的 实现 都 会 含有 和 这 个 简单 例子 相同 的 元 素 。 


public class Counter 


实例 方法 


测试 用 例 一 一 一 


创建 并 初 一 Counter heads 
始 化 对 象 “一 一 Counter tails 


1.2.3.1 实例 变量 


要 定义 数据 类 型 的 值 ( 即 每 个 对 象 的 ; 


i 开发 的 每 个 抽象 数 


private int count; 


private final String name; 


public Counter(String id) 
{ name = id; } 


public void increment() 
{ count++; } 


public int tallyQO 
{ return count; } 


< 一 


private final String name; 
private int count; 


抽象 数据 类 型 中 的 实例 变量 是 私有 的 


类 名 


public String toStringQ) 
{ return count + " " + name; } 


public static void main(String[] args) 


new Counter("heads"); 


= new |Counter("tails"); 


、\ 触发 构造 函数 


heads.increment() ; 
heads.increment() ; 
tails.increment() ; 


StdOout.printlnCheads + " " 
StdOut.println(Cheads.tally() + 


自动 调用 toString () 方 法 


+ tails); 


对 象 名 


tails.tallyO) 


六 调用 
方法 


吏 


1.2.5 详解 数据 类 型 的 定义 类 


类 态 ) ， 我 们 需要 声明 实例 变量 ， 声 明 的 方式 和 局 部 变量 
不 多 。 实 例 变量 和 你 所 熟悉 的 静态 方法 或 是 某 个 代码 段 中 的 局 部 变量 最 关键 的 区 别 在 于 : 每 一 时 刻 每 


个 局 部 变量 只 会 有 一 个 值 , 但 每 个 实例 变量 则 对 应 着 无 数值 ( 数据 类 型 的 每 个 实例 对 象 都 会 有 一 个 ) 。 
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这 并 不 会 产生 二 义 性 ， 因 为 我 们 在 访问 实例 变量 时 都 需要 通过 一 个 对 象 一 一 我 们 访问 的 是 这 个 对 象 的 
值 。 同 样 ， 每 个 实例 变量 的 声明 都 需要 一 个 可 见 性 修饰 符 。 在 抽象 数据 类 型 的 实现 中 ,我 们 会 使 用 
private， 也 就 是 使 用 Java 语言 的 机 制 来 保证 向 使 用 者 隐藏 抽象 数据 类 型 中 的 数据 表示 ， 如 下 面 的 示 
例 所 示 。 如 果 该 值 在 初始 化 之 后 不 应 该 再 被 改变 ， 我 们 也 会 使 用 final。Counter 类 型 含有 两 个 实例 
变量 ,一 个 String 类 型 的 值 name 和 一 个 int 类 型 的 值 count。 如 果 我 们 使 用 public 修饰 这 些 实例 
变量 (在 Java 中 是 允许 的 ) , 那么 根据 定义 , 这 种 数据 类 型 就 不 再 是 抽象 的 了 ， 因 此 我 们 不 会 这 么 做 。 
1.2.3.2 ”构造 函数 

每 个 Java 类 都 至 少 含有 一 个 构造 函数 以 创建 一 个 对 象 的 标识 。 构 造 函 数 类 似 于 一 个 静态 方法 ， 但 
它 能 够 直接 访问 实例 变量 且 没 有 返回 值 。 一 般 来 说 ， 构 造 函 数 的 作用 是 初始 化 实例 变量 。 每 个 构造 丽 | 中 
数 都 将 创建 一 个 对 象 并 向 调用 者 返回 一 个 该 对 象 的 引用 。 构 造 函 数 的 名 称 总 是 和 类 名 相同 。 我 们 可 以 ”185 


和 重 载 方法 一 样 重 载 这 个 名 称 并 定义 签名 不 同 的 多 
个 构造 函数 。 如 果 没 有 定义 构造 函数 ， 类 将 会 隐 式 
定义 一 个 默认 情况 下 不 接受 任何 参数 的 构造 函数 并 
将 所 有 实例 变量 初始 化 为 默认 值 。 原 始 数字 类 型 的 

实例 变量 默认 值 为 0， 布尔 类 型 变量 为 false， 引 可 见 性 没有 指定 返 构造 函数 名 称 


参数 
用 类 型 变量 为 nu11。 我 们 可 以 在 声明 语句 中 初始 Ce 
化 这 些 实例 变量 并 改变 这 些 默认 值 。 当 用 例 使 用 关 [i Ce 
键 字 new 时 ，Java 会 自动 触发 一 个 构造 函数 。 重 载 {lname = id:|} 
构造 函数 一 般 用 于 将 实例 变量 由 默认 值 初始 化 为 用 ' 签名 
例 提供 的 值 。 例 如 ，Counter 类 型 有 个 接受 一 个 参 初始 化 实例 变量 的 代码 


(count 将 会 被 初始 化 为 默认 值 0) 


数 的 构造 函数 ， 它 将 实例 变量 name 初始 化 为 由 参 
数 给 定 的 值 (实例 变量 count 仍 将 被 初始 化 为 默认 
值 0) 。 构 造 函 数 解析 如 图 1.2.6 所 示 。 图 1.2.6 详解 构造 函数 
1.2.3.3 ”实例 方法 

实现 数据 类 型 的 实例 方法 ( 即 每 个 对 象 的 行为 ) 的 代码 和 1.1 节 中 实现 静态 方法 ( 函数 ) 的 代码 
完全 相同 。 每 个 实例 方法 都 有 一 个 返回 值 类 型 、 一 个 签名 ( 它 指定 了 方法 名 、 所 有 参数 变量 的 类 型 
和 名 称 ) 和 一 个 主体 ( 它 由 一 系列 语句 组 成 ， 包 括 一 个 返回 语句 来 将 一 个 返回 类 型 的 值 传递 给 调用 
者 ) 。 当 调用 者 触发 了 一 个 方法 时 ， 方 法 的 参数 ( 如 果 有 ) 均 会 被 初始 化 为 调用 者 所 提供 的 值 ， 方 法 
的 语句 会 被 执行 ， 直 到 得 到 一 个 返回 值 并 且 将 该 值 返回 给 调用 者 。 它 的 效果 就 好 像 调 用 者 代码 中 的 函 
数 调用 被 替换 为 了 这 个 返回 值 。 实 例 方法 的 所 有 这 些 行为 都 和 静态 方法 相同 ， 只 有 一 点 关键 的 不 同 : 
它们 可 以 访问 并 操作 实例 变量 。 如 何 指定 我 们 希望 使 用 的 对 象 的 实例 变量 ?只 要 稍 加 思考 ， 就 能 够 得 
到 合理 的 答案 : 在 一 个 实例 方法 中 对 变量 的 引用 指 的 是 调用 该 方法 的 对 象 中 的 值 。 当 我 们 调用 heads. 


increment() 时 ，increment() 方法 中 的 代码 访问 的 是 heads 中 的 实例 变量 。 换 句 话 说， 面向 对 象 编 “| 86 


程 为 Java 程序 增加 了 另 一 种 使 用 变量 的 重要 方式 。 可 见 性 返 下 
口 通过 触发 一 个 实例 方法 来 操作 该 对 象 的 值 。 车 人 一 签名 


这 与 调 前 态 方法 仅仅 是 语法 上 的 区 别 ( 请 | public] void|llincrement © 
见 答疑 ) ， 但 在 许多 情况 下 它 颠 覆 了 现代 程序 员 { counth+; } 


对 程序 开发 的 思维 方式 。 你 会 看 到 ， 这 种 方式 与 、 
算法 和 数据 结构 的 研究 非常 契合 。 实 例 方法 解析 实例 变量 名 


如 图 1.2.7 所 示 。 图 1.2.7 详解 实例 方法 
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1.2.3.4 ”作用 域 
总 的 来 说 ， 我 们 在 实现 实例 方法 的 Java 代码 中 使 用 了 三 种 变量 : 
口 参数 变量 ; 
口 局 部 变量 ， public class Example 实例 变量 
口 实例 变量 。 private int var; 
前 两 者 的 用 法 和 静态 方法 中 一 样 : 方法 
的 签名 定义 了 参数 变量 ， 在 方法 被 调用 时 人 参 人 void method1() 
数 变量 会 被 初始 化 为 调用 者 提供 的 值 ， 局 部 有 | 本 
局部 变量 9, 几 用 的 是 局 部 变 
变量 的 声明 和 初始 化 都 在 方法 的 主体 中 。 参 。。 局 部 变量 一 一 人 
数 变量 的 作用 域 是 整个 方法 ;局 部 变量 的 作 ... this.var 
用 域 是 当前 代码 段 中 它 的 定义 之 后 的 所 有 语 一 ~ 调用 实例 变量 
句 。 人 | | 
它们 为 该 类 的 对 象 保存 了 数据 类 型 的 值 ， PE 
们 的 作用 域 是 整个 类 ( 如 果 出 现 二 义 性 ， - .Var 5 
以 使 用 this 前 缀 来 区 别 实例 变量 ) 。 理 解 十 出 用 实例 灾 昌 


实例 方法 中 这 三 种 变量 


象 编程 的 关键 。 


的 区 别 是 理解 面向 对 } 
实例 方法 中 的 实例 变量 和 局 部 变量 的 作用 范围 


1.2.3.5_ API、 用 例 与 实现 


这 些 都 是 你 要 在 Java 中 构造 并 使 用 抽象 数据 类 型 所 需要 理解 的 基本 组 件 。 我 们 将 要 学 习 的 每 
个 抽象 数据 类 型 的 实现 都 会 是 一 个 含有 符 干 私有 实例 变量 、 构 造 函 数 、 实 例 方法 和 一 个 测试 用 例 


的 Java 类 。 要 完全 到 
的 总 结 请 见 表 1.2.11。 


E 解 一 个 数据 类 型 ， 我 们 需要 它 的 API、 典 型 的 用 例 和 它 的 实现 。Counter 类 型 
为 了 强调 用 例 和 实现 的 分 离 ， 我 们 一 般 会 将 用 例 独立 成 为 含有 一 个 静态 方法 


en 并 将 数据 类 型 定义 中 的 main() 方法 预 留 为 一 个 用 于 开发 和 最 小 单元 测试 的 测试 用 例 


至 少 调用 每 个 实例 方法 一 次 ) 。 我 们 开发 的 每 种 数据 类 型 都 会 遵循 相同 的 步骤 。 我 们 思考 的 不 是 


我 们 会 按照 下 面 三 步 走 的 方式 用 抽象 数据 类 型 满足 它们 。 


口 定义 一 份 API: API 的 作用 是 将 使 用 和 实现 分 离 ， 以 实现 模块 化 编程 。 我 们 制定 一 份 API 的 目 


标 有 二 : 第 一 


， 我 们 希望 用 例 的 代码 清晰 而 正确 ， 事 实 上 ， 在 最 终 确定 API 之 前 就 编写 一 些 


用 例 代码 来 而 


保 所 设计 的 数据 类 型 操作 正 是 用 例 所 需要 的 是 很 好 的 主意 ; 第 二 ， 我 们 希望 能 


够 实现 这 些 操作 ， 定 义 一 些 无 法 实现 的 操作 是 没有 意义 的 。 


例 方法 。 


口 用 一 个 Java 类 实现 API 的 定义 : 首先 我 们 选择 适当 的 实例 变量 ,然后 再 编写 构造 函数 和 实 


口 实现 多 个 测试 用 例 来 验证 前 两 步 做 出 的 设计 决定 。 


表 1.2.11 一 个 简单 计数 器 的 抽象 数据 类 型 


API public class Counter 
Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyO) 计数 占 的 值 
String toString() 对 象 的 字符 串 表 示 
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( 续 ) 
典型 的 用 例 
public class Flips 

public static void main(String[] args) 

{ 
int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
fommenme tt =O Te 

if (StdRandom.bernoul11i(0.5)) 
heads.increment(); 
else tails.increment(); 

StdOut.printlin(heads); 
StdOut.printin(tails); 
dnd = headsstally OO alsstally 
StdOut.printlin("delta: ”+ Math.abs(d)); 

} 

} 
数据 类 型 的 实现 使 用 方法 
public class Counter % java Flips 1000000 
500172 heads 
private final String name; 499828 tails 
private int count; delta: 344 


public Counter(String id) 

{ name = id; } 

public void increment() 

{ count++; } 

public int tally©O 
‘returniceounte ny 

public String toString() 

{ return count + " " + name; } 


用 例 一 般 需要 什么 操作 ? 数据 类 型 的 值 应 该 是 什么 才能 最 好 地 支持 这 些 操作 ? 这 些 基本 的 判断 ”Fg 
是 我 们 开发 的 每 种 实现 的 核心 内 容 。 89 


1.2.4 更 多 抽象 数据 类 型 的 实现 
和 任何 编程 概念 一 样 ， 理 解 抽象 数据 类 型 的 威力 和 用 法 的 最 好 办 法 就 是 仔细 研究 更 多 的 例子 和 
实现 。 本 书 中 大 量 代码 是 通过 抽象 数据 类 型 实现 的 ， 因 此 你 的 机 会 很 多 ,但 是 一 些 更 简单 的 例子 能 
够 帮助 我 们 为 研究 抽象 数据 类 型 打 好 基础 。 
1.2.4.1 日 期 
表 1.2.12 是 我 们 在 表 1.2.6 中 定义 的 Date 抽象 数据 类 型 的 两 种 实现 。 简 单 起 见 ， 我 们 省 
略 了 解析 字符 串 的 构造 隙 数 (请 见 练习 1.2.19) 和 继承 的 方法 equals() (请 见 1.2.5.8 节 ) 、 
compareTo() (请 见 2.1.1.4 节 ) 和 hashCode() (请 见 练习 3.4.22 ) 。 表 1.2.12 中 左 侧 的 简单 实现 
将 日 、 月 和 年 设 为 实例 变量 ， 这 样 实例 方 法 就 可 以 直接 返回 适当 的 值 ; 右 侧 的 实现 更 加 节省 空间 ， 
仅 使 用 了 一 个 int 变量 来 表示 一 个 日 期 。 它 将 d 日 、m 月 和 yy 年 的 一 个 日 期 表示 为 一 个 混合 进 制 的 
整数 512y+32m+d。 用 例 分 辨 这 ne 种 方法 可 能 是 打破 我 们 对 日 期 的 隐 式 假设 : 第 


二 种 实现 的 正确 性 基于 日 的 值 在 0 到 31 之 间 , 月 的 值 在 0 到 15 之 间 , 年 的 值 为 正 (在 实际 应 用 中 ， 
两 种 实现 都 应 该 检查 月 份 的 值 是 否 在 1 到 12 之 间 ， 日 的 值 是 否 ne 以 及 例如 2009 年 6 
月 31 日 和 2 月 29 日 这 样 的 非法 日 期 尽管 这 么 做 要 费 些 工夫 ) 。 这 个 例子 的 主要 意思 是 说 明 我 们 
在 API 中 极 少 完整 地 指定 对 实现 的 要 求 〈 ns 这 里 还 可 以 做 得 更 好 ) 。 用 
例 要 分 辨 出 这 两 种 实现 的 区 别 的 另 一 种 方法 是 性 和 能 : 右 侧 的 实现 中 保存 数据 类 型 的 值 所 需 的 空间 较 
少 ， 代 价 是 在 向 用 例 按 照 约定 的 格式 提供 这 


We 比 费 的 时 间 更 多 ( 需要 进行 一 两 次 算术 运算 ) 。 
这 种 交换 是 很 常见 的 : 某 些 用 例 可 能 偏爱 其 中 一 种 实现 ， 
们 两 者 都 要 满足 。 事 实 上 ， 本 书 中 反复 出 现 的 一 个 主 


而 另 一 些 用 例 可 能 更 喜欢 另 一 种 ， 因 此 我 
题 就 是 我 们 需要 理解 各 种 实现 对 空间 和 时 间 的 


需求 以 及 它们 对 各 种 用 例 的 适用 性 。 在 实现 中 使 用 数据 抽象 的 一 个 关键 优势 是 我 们 可 以 将 一 种 实现 


替换 为 另 一 种 而 无 需 改 变 用 例 的 任何 代码 。 


表 1.2.12 一 种 封装 日 期 的 抽象 数据 类 型 以 及 它 的 两 种 实现 


API public class Date 


Date(int month, int day, int year) 创建 一 个 日 期 
int dayQ 日 
int monthO) 月 
int year() 年 
String toStringQO) 对 象 的 字符 囊 表 示 


测试 用 例 
publner Sta vond maain(S tng angs 
1 
int m = Integer.parseInt(args[0]); 
int d = Integer.parseInt(args[1]); 
int y = Integer.parseInt(args[2]); 


Date date = new Date(m, d, y); 
Stdout .println(Cdate) ; 


数据 类 型 的 实现 


public class Date 
加 
private final int month ; 
private final int day; 
private final int year; 
public Date(int m, int d, int y) 
montn = mdayv di Year vy 站 
public int month() 
{ return month; 了 
public int dayQO 
rerurnmnday aa 
public int year() 
{ return year; 了 
public String toString() 
{ return month() + "/" + dayO) 
+ "/" + year() ; 


} 


使 用 方法 


% java Date 12 31 1999 
12/31/1999 


数据 类 型 的 另 一 种 实现 


public class Date 


private final int value; 

public Date(int m, int d, int y) 
{ value = y*512 + m*32 + d; } 
public int month() 

{ return (value / 32) % 16; } 
public int dayQO 

{ return value % 32; } 

public int year() 

{ return value / 512; } 


public String tostring() 
{ return month() + "/" + dayQO 
+ "/" + yearQO; 


} 
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1.2.4.2 ”维护 多 个 实现 
同一 份 API 的 多 个 实现 可 能 会 产生 维护 和 命名 问题 。 在 某 些 情况 下 ， 我 们 可 能 只 是 想 将 较 老 的 实 
现 替 换 为 改进 的 实现 。 而 在 另 一 些 情况 下 ， 我 们 可 能 需要 维护 两 种 实现 ， 一 种 适用 于 某 些 用 例 ， 另 一 
种 适用 于 另 一 些 用 例 。 实 际 上 ， 本 书 的 一 个 主要 目标 就 是 深入 讨论 若干 种 基本 抽象 数据 结构 的 实现 并 ”| 90 
衡量 它们 的 性 能 的 不 同 。 在 本 书 中 ， 我 们 经 常会 比较 同一 份 API 的 两 种 不 同 实现 在 同一 个 用 例 中 的 性 ”[91 
能 表现 。 为 此 ， 我 们 通常 采用 一 种 非 正式 的 命名 约定 。 
口 通过 前 级 的 描述 性 修饰 符 区 别 同一 份 API 的 不 同 实现 。 例 如 ， 我 们 可 以 将 表 1.2.12 中 的 
Date 实现 命名 为 BasicDate 和 Smal1Date， 我 们 可 能 还 希望 实现 一 种 能 够 验证 日 期 是 否 合 
法 的 SmartDate。 
口 维护 一 个 没有 前 级 的 参考 实现 ， 它 应 该 适合 于 大 多 数 用 例 的 需求 。 在 这 里 ， 大 多 数 用 例 应 该 
直接 会 使 用 Date。 
在 一 个 庞大 的 系统 中 ， 这 种 解决 方案 并 不 理想 ， 因 为 它 可 能 会 需要 修改 用 例 的 代码 。 例 如 ， 如 
果 需 要 开发 一 个 新 的 实现 ExtraSmal1Date， 那 么 我 们 只 能 修改 用 例 的 代码 或 是 让 它 成 为 所 有 用 例 
的 参考 实现 。Java 有 许多 高 级 语言 特性 来 保证 在 无 需 修改 用 例 代码 的 情况 下 维护 多 个 实现 ， 但 我 们 
很 少 会 使 用 它们 ， 因 为 即使 Java 专家 使 用 起 它们 来 也 十 分 困难 ( 有 时 甚至 是 有 争议 的 ) ， 尤 其 是 同 
我 们 极为 需要 的 其 他 高 级 语言 特性 ( 泛 型 和 迭代 器 ) 一 起 使 用 时 。 这 些 问 题 很 重要 ( 例如， 忽略 它 
们 会 导致 千 禧 年 著名 的 Y2K 问题 ， 因 为 许多 程序 使 用 的 都 是 它们 自己 对 日 期 的 抽象 实现 ， 且 并 没 
有 考虑 到 年 份 的 头 两 位 数字 ) ,但 是 深究 它们 会 使 我 们 大 大 偏离 对 算法 的 研究 。 
1.2.4.3 ”累加 器 
表 1.2.13 中 的 累加 器 API 定义 了 一 种 能 够 为 用 例 计 算 一 组 数据 的 实时 平均 值 的 抽象 数据 类 型 。 
例如 ， 本 书 中 经 常会 使 用 该 数据 类 型 来 处 理 实验 结果 (请 见 1.4 节 ) 。 它 的 实现 很 简单 : 它 维护 一 个 
int 类 型 的 实例 变量 来 记录 已 经 处 理 过 的 数据 值 的 数量 ， 以 及 一 个 double 类 型 的 实例 变量 来 记录 所 
有 数据 值 之 和 ， 将 和 除 以 数据 数量 即 可 得 到 平均 值 。 请 注意 该 实现 并 没有 保存 数据 的 值 一 一 它 可 以 用 
于 处 理 大 规模 的 数据 (甚至 是 在 一 个 无 法 全 部 保存 它们 的 设备 上 ) ， 而 一 个 大 型 系统 也 可 以 大 量 使 用 


Ej 


表 1.2.13 一 种 能 够 累加 数据 的 抽象 数据 类 型 


API public class Accumulator 


Accumulator() 创建 一 个 累加 器 
void addDataValue(double val) 添加 一 个 新 的 数据 值 
double meanQ) 所 有 数据 值 的 平均 值 
String toString() 对 象 的 字符 串 表 示 
典型 的 用 例 使 用 方法 
public class TestAccumulator % java TestAccumulator 1000 
{ Mean (1000 values): 0.51829 


public static void main(String[] args) 风衣 Mega le ooo 


int T = Integer.parseInt(args[0]); Mean (1000000 values): 0.49948 


Accumulator a = new Accumulator(); % java TestAccumulator 1000000 


Form Gm Ont < trp) Mean (1000000 values): 0.50014 
a.addDataValue(StdRandom.random()); 


StdOut.println(a); 
} 


次 


数据 类 型 的 实现 


public class Accumulator 
{ 
private double total; 
private int N; 
public void addDataValue(double val) 
{ 
N++; 
total += val; 


b 
public double mean() 
{ return total/N; 上 
public String toString() 
{ return "Mean (” +N+" values): " 
+ String.format("%7.5f", mean()); } 


92 | 累加 器 。 这 种 性 能 特点 很 容易 被 忽视 ， 所 以 也 许 应 该 在 API 中 注 明 ， 因 为 一 种 存储 所 有 数据 值 的 实现 
93 | ”可 能 会 使 调用 它 的 应 用 程序 用 光 所 有 内 存 。 
1.2.4.4 ”可 视 化 的 累加 器 
表 1.2.14 所 示 的 可 视 化 累加 器 的 实现 继承 了 Accumulator 类 并 展示 了 一 种 实用 的 副作用 : 它 
用 StdDraw 画 出 了 所 有 数据 (灰色 ) 和 实时 的 平均 值 (红色 ) ， 见 图 1.2.8。 完 成 这 项 任务 最 简单 
的 办 法 是 添加 一 个 构造 函数 来 指定 需要 绘 出 的 点 数 和 它们 的 最 大 值 (用 于 调整 图 像 的 比例 ) 。 严 格 
说 来 ，VisualAccumulator 并 不 是 Accumulator 的 API 的 实现 ( 它 的 构造 函数 的 签名 不 同 有 旦 产生 


使 用 方法 


左 起 第 N 个 红 点 的 高 度 为 最 
靠 左 的 N 个 灰 点 的 平均 高 度 


个 、 灰 点 的 高 度 | | 
. 即 数据 点 的 值 % java TestVisualAccumulator 2000 
Mean (2000 values): 0.509789 


94 图 1.2.8 ”可 视 化 累加 器 图 像 ( 男 见 彩 插 ) 
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了 一 种 不 同 的 副作用 ) 。 一 般 来 说 ， 我 们 会 仔细 而 完整 地 设计 API， 并 且 一 旦 定型 就 不 愿 再 对 它 做 
任何 改动 ， 因 为 这 有 可 能 会 涉及 修改 无 数 用 例 ( 和 实现 ) 的 代码 。 但 添加 一 个 构造 函数 来 取得 某 些 
功能 有 时 能 够 获得 通过 ， 因 为 它 对 用 例 的 影响 和 改变 类 名 所 产生 的 变化 相同 。 在 本 例 中 ， 如 果 已 经 
开发 了 一 个 使 用 Accumulator 的 用 例 并 大 量 调用 了 addDataValue() 和 mean() ， 只 需 改 变 用 例 的 
一 行 代码 就 能 享受 到 VisualAccumulator 的 优势 。 


表 1.2.14 一 种 能 够 累加 数据 的 抽象 数据 类 型 (可 视 版 本 ， 另 见 彩 插 ) 


API public class VisualAccumulator 


VisualAccumulator(int trials, double max) 


void addDataValue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 的 平均 值 
String toStringO) 对 象 的 字符 串 表 示 

典型 的 用 例 public class TestVisualAccumulator 

public static void main(String[] args) 

{ 
int T = Integer.parseInt(args[0]); 
VisualAccumulator a = new VisualAccumulator(T, 1.0); 
for (int t = 0; t < T; t++) 

a.addDataValue(StdRandom.random()); 

Stdout.println(Ca) ; 

} 

} 
数据 类 型 的 实现 public class VisualAccumulator 


private double total; 
private int N; 
public VisualAccumulator(int trials, double max) 


{ 
StdDraw.setXscale(0, trials); 
StdDraw.setYscale(0, max); 
StdDraw.setPenRadius(.005); 

} 

public void addDataValue(double val) 

{ 
N++; 
total += val; 
StdDraw.setPenColor(StdDraw.DARK_GRAY); 
StdDraw.point(N, val); 
StdDraw.setPenColor (StdDraw.RED); 
StdDraw.point(N, total/N); 

} 


public double mean() 
public String toString() 
// 和 Accumulator 相同 
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1.2.5 数据 类 型 的 设计 

抽象 数据 类 型 是 一 种 向 用 例 隐藏 内 部 表示 的 数据 类 型 。 这 种 思想 强 有 力 地 影响 了 现代 编程 。 我 
们 直到 过 的 众多 例子 为 我 们 研究 抽象 数据 类 型 的 高 级 特性 和 它们 的 Java 实现 打下 了 基础 ,简单 看 来 ， 
下 面 的 许多 话题 和 算法 的 学 习 关 系 不 大 ， 因 此 你 可 以 跳 过 本 节 ， 在 今后 实现 抽象 数据 类 型 中 遇 到 特 
定 问 题 时 再 回 过 头 来 参考 它 。 我 们 的 目的 是 将 关于 设计 数据 类 型 的 重要 知识 集中 起 来 以 供 参考 ， 并 
为 本 书 中 的 所 有 抽象 数据 类 型 的 实现 做 铺垫 。 
1.2.5.1 封装 

面向 对 象 编程 的 特征 之 一 就 是 使 用 数据 类 型 的 实现 封装 数据 ， 以 简化 实现 和 隔离 用 例 开 发 。 封 
装 实现 了 模块 化 编程 ， 它 允许 我 们 : 
口 独立 开发 用 例 和 实现 的 代码 ; 
口 切换 至 改进 的 实现 而 不 会 影响 用 例 的 代码 ; 
口 支持 尚未 编写 的 程序 ( 对 于 后 续 用 例 ，API 能 够 起 到 指南 的 作用 ) 。 
封装 同时 也 隔离 了 数据 类 型 的 操作 ， 这 使 我 们 可 以 : 
口 限制 潜在 的 错误 ; 
口 在 实现 中 添加 一 致 性 检查 等 调试 工具 ; 
口 确保 用 例 代码 更 明晰 。 

一 个 封装 的 数据 类 型 可 以 被 任意 用 例 使 用 ， 因 此 它 扩 展 了 Java 语言 。 我 们 所 提倡 的 编程 风格 是 
将 大 型 程序 分 解 为 能 够 独立 开发 和 调试 的 小 型 模块 。 这 种 方式 将 修改 代码 的 影响 限制 在 局 部 区 域 ， 
改进 了 我 们 的 软件 质量 。 它 也 促进 了 代码 复 用 ， 因 为 我 们 可 以 用 某 种 数据 类 型 的 新 实现 代替 老 的 实 
现 来 改进 它 的 性 能 、 准 确 度 或 是 内 存 消耗 。 同 样 的 思想 也 适用 于 许多 其 他 领域 。 我 们 在 使 用 系统 库 
时 常常 从 封装 中 受益 。Java 系统 的 新 实现 往往 更 新 了 多 种 数据 类 型 或 静态 方法 库 的 实现 ， 但 它们 的 
API 并 没有 变化 。 在 算法 和 数据 结构 的 学 习 中 ， 我 们 总 是 希望 开发 出 更 好 的 算法 ， 因 为 只 需 用 抽象 
数据 类 型 的 改进 实现 将 换 老 的 实现 即 可 在 不 改变 任何 用 例 代 码 的 情况 下 改进 所 有 用 例 的 性 能 。 模 块 
化 编程 成 功 的 关键 在 于 保持 模块 之 间 的 独立 性 。 我 们 坚持 将 API 作为 用 例 和 实现 之 间 唯 一 的 依赖 点 
来 做 到 这 一 点 。 并 不 需要 知道 一 个 数据 类 型 是 如 何 实现 的 才能 使 用 它 ， 实 现 数据 类 型 时 也 应 该 假设 
使 用 者 除了 API 什么 也 不 知道 。 封 装 是 获得 所 有 这 些 优势 的 关键 。 
1.2.5.2 ”设计 API 

构建 现代 软件 最 重要 也 最 有 挑战 的 一 项 任务 就 是 设计 API。 它 需要 经 验 、 思 考 和 反复 的 修改 ， 
但 设计 一 份 优秀 的 API 所 付出 的 所 有 时 间 都 能 从 调试 和 代码 复 用 所 节省 的 时 间 中 获得 回报 。 为 一 个 
小 程序 给 出 一 份 API 似乎 有 些 多 余 ， 但 你 应 该 按照 能 够 复 用 的 方式 编写 每 个 程序 。 理 想 情 况 下 ， 一 
份 API 应 该 能 够 清楚 地 说 明 所 有 可 能 的 输入 和 副作用 ， 然 后 我 们 应 该 先 写 出 检查 实现 是 否 与 API 相 
符 的 程序 。 但 不 垃 的 是 ， 计 算 机 科学 理论 中 一 个 叫做 说 明 书 问题 ( specification problem ) 的 基础 结 
论说 明 这 个 目标 是 不 可 能 实现 的 。 简 单 地 说 ， 这 样 一 份 说 明 书 应 该 用 一 种 类 似 于 编程 语言 的 形式 语 
言 编 写 。 而 从 数学 上 可 以 证 明 ， 判 定 这 样 两 个 程序 进行 的 计算 是 否 相 同 是 不 可 能 的 。 因 此 ， 我 们 的 
API 将 是 与 抽象 数据 类 型 相关 联 的 值 以 及 一 系列 构造 函数 和 实例 方法 的 目的 和 副作用 的 自然 语言 描 
述 。 为 了 验证 我 们 的 设计 ， 我 们 会 在 API 附近 的 正文 中 给 出 一 些 用 例 代 码 。 但 是 ， 这 些 宏观 概述 之 
中 也 隐藏 着 每 一 份 API 设计 都 可 能 落 入 的 无 数 陷阱 。 

口 API 可 能 会 难以 实现 : 实现 的 开发 非常 困难 ， 甚 至 不 可 能 。 


一 


口 API 可 能 会 难以 使 用 : 用 例 代码 甚至 比 没有 API 时 更 复杂 。 
口 API 的 范围 可 能 太 窒 : 缺少 用 例 所 需 的 方法 。 


口 API 的 范围 可 能 太 宽 : 包含 许多 不 会 被 任何 用 例 调用 的 方法 。 这 种 缺陷 可 能 是 最 常见 的 ， 并且 
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也 是 最 难以 避免 的 。API 的 大 小 一 般 会 随 着 时 间 而 增长 ， 因 为 向 已 有 的 API 中 添加 新 方法 很 


简单 ， 但 在 不 破坏 已 有 用 例 程 序 的 前 提 下 从 中 删除 方法 却 很 困难 。 
口 API 可 能 会 太 粗 略 : 无 法 提供 有 效 的 抽象 。 
口 API 可 能 会 太 详细 : 抽象 过 于 细致 或 是 发 散 而 无 法 使 用 。 


口 API 可 能 会 过 于 依赖 某 种 特定 的 数据 表示 : 用 例 代码 可 能 会 因此 无 法 从 数据 表示 的 细节 中 解 


脱出 来 。 要 避免 这 种 缺陷 也 是 很 困难 的 ， 因 为 数据 表示 显然 是 抽象 数据 类 型 实现 的 核心 。 97 
这 些 考虑 有 时 又 被 总 结 为 另 一 名 格言 : 只 为 用 例 提 供 它 们 所 需要 的 ， 仅 此 而 已 。 


1.2.5.3 ”算法 与 抽象 数据 类 型 


数据 抽象 天 生 适 合算 法 研究 ， 因 为 它 能 够 为 我 们 提供 一 个 框架 ， 在 其 中 能 够 准确 地 说 明 一 个 算 
法 的 目的 以 及 其 他 程序 应 该 如 何 使 用 该 算法 。 在 本 书 中 ， 算 法 一 般 都 是 某 个 抽象 数据 类 型 的 一 个 实 


例 方 法 的 实现 。 例 如 ， 本 章 开头 的 白 名 单 例子 就 很 自然 地 被 实现 为 一 个 抽象 数据 类 型 的 用 例 。 它 进 


行 了 以 下 操作 : 
口 由 一 组 给 定 的 值 构造 了 一 个 SET (集合 ) 对 象 ; 
口 判定 一 个 给 定 的 值 是 否 存在 于 该 集合 中 。 


这 些 操作 封装 在 StaticSETofInts 抽象 数据 类 型 中 ， 和 Whitelist 用 例 一 起 显示 在 表 1.2.15 中 。 


StaticSETofInts 是 更 一 般 也 更 有 用 的 符号 表 抽 象 数据 类 型 的 一 种 特殊 情况 ， 符 号 表 抽 象 数据 类 


型 将 是 第 3 章 的 重点 。 在 我 们 研究 过 的 所 有 算法 中 ， 二 分 查找 是 较为 适合 


j 于 实现 这 些 抽象 数据 类 


型 的 一 种 。 和 1.1.10 节 中 的 BinarySearch 实现 比较 起 来 ， 这 里 的 实现 所 产生 的 用 例 代 码 更 加 清晰 和 
高 效 。 例如，StaticSETofInts 强制 要 求 数组 在 rank() 方法 被 调用 之 前 排序 。 有 了 抽象 数据 类 型 ， 
我 们 可 以 将 抽象 数据 类 型 的 调用 和 实现 区 分 开 来 ， 并 确保 任意 遵守 API 的 用 例 程序 都 能 受益 于 二 分 
查找 算法 (使 用 BinarySearch 的 程序 在 调用 rankQ 之 前 必须 能 够 将 数组 排序 ) 。 白 名 单 应 用 是 众 


多 二 分 查找 算法 的 用 例 之 一 。 
每 个 Java 程序 都 是 一 组 静态 方法 和 (或 ) 一 种 ”应 用 


数据 类 型 的 实现 的 集合 。 在 本 书 中 我 们 主要 关注 的 是 % java Whitelist largeW.txt < 


抽象 数据 类 型 的 实现 中 的 操作 和 向 用 例 隐藏 其 中 的 数 J 
据 表 示 , 例如 StaticSETofInts。 正 如 这 个 例子 所 示 ， 984875 
数据 抽象 使 我 们 能 够 : 0 

口 准确 定义 算法 能 为 用 例 提供 什么 ; 140925 

口 隔离 算法 的 实现 和 用 例 的 代码 ; oe 

口 实现 多 层 抽 象 ， 用 已 知 算法 实现 其 他 算法 。 es 


表 1.2.15 ”将 二 分 查找 重 写 为 一 段 面向 对 象 的 程序 〈 用 于 在 整数 集合 中 进行 查找 的 一 种 抽象 数据 类 型 ) 


API public class StaticSETofInts 


StaticSETofInts(int[] a) 根据 a[] 中 的 所 有 值 创建 一 个 集合 


boolean contains(int key) key 是 否 存在 于 集合 中 


次 


典型 的 用 例 
public class Whitelist 
于 


public static void main(String[] args) 


In 加 医 wEEETOSEeadgnneskanogsiolp2 
StaticSETofInts set = new StaticSETofInts(w); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 ， 如 果 不 在 白 名 单 中 则 打印 它 
lineakeyEE ESEdFnareadnnt 的 1 
if (!set.contains(key)) 
StdOut.println(key); 


数据 类 型 的 实现 
import java.util.Arrays; 
public class StaticSETofInts 


{ 
private int[] a; 
public StaticSETofInts(int[] keys) 
a = new int[keys.length]; 
for (int i = 0; i < keys.length; i++) 
a[i] = keys[i]; // 保护 性 复制 
Arrays.sort(a); 
public boolean contains(int key) 
{ return rank(key) != -1; } 
private int rank(int key) 
{ // 二 分 查找 
IUD =0 
Wmehn "aslength 
while (lo <= hi) 
{ // 键 要 么 存在 于 a[1o..hi] 中 ， 要 么 不 存在 
ne mc = lo nn oD 
Ti (key < armid]) hi = mid - 1; 
else if (key > a[mid]) lo = mid + 1; 
else return mid; 
} 
return -1; 
让 
} 
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1.2.5.4 ”接口 继承 


无 论 是 使 用 自然 语言 还 是 伪 代 码 描述 算法 ， 这 些 都 是 我 们 所 希望 拥有 的 性 质 。 使 用 Java 的 类 
8 机制 来 支持 数据 的 抽象 将 使 我 们 收获 良 多 : 我 们 编写 的 代码 将 能 够 测试 算法 并 比较 各 种 用 例 程序 的 


Java 语言 为 定义 对 象 之 间 的 关系 提供 了 支持 ， 称 为 接口 。 程 序 员 广 泛 使 用 这 些 机 制 ， 如 果 上 过 


软件 工程 的 课程 那么 你 可 以 详细 地 研究 一 下 它们 。 我 们 学 习 的 第 一 种 继承 机 制 叫做 子 类 型 。 它 允许 
我 们 通过 指定 一 个 含有 一 组 公共 方法 的 接口 为 两 个 本 来 并 没有 关系 的 类 建立 一 种 联系 ， 这 两 个 类 者 


必须 实现 这 些 方法 。 例 如 ， 如 果 不 使 用 我 们 的 非 正 式 API， 也 可 以 为 Date 声明 一 个 接口 : 
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public interface Datable 
‘ 

int month() ; 

int day() ; 

int year() ; 
} 


并 在 我 们 的 实现 中 引用 该 接口 : 

public class Date implements Datable 

// 实现 代码 ( 和 以 前 一 样 ) 

这 样 ，Java 编译 器 就 会 检查 该 实现 是 否 和 接口 相符 。 为 任意 实现 了 monthG) 、day(G) 和 
year0) 的 类 添加 implements Datable 保证 了 所 有 用 例 都 能 用 该 类 的 对 象 调用 这 些 方法 。 这 种 方 
式 称 为 接口 继承 一 一 实现 类 继承 的 是 接口 。 接 口 继承 使 得 我 们 的 程序 能 够 通过 调用 接口 中 的 方法 操 
作 实现 该 接口 的 任意 类 型 的 对 象 〈 甚至 是 还 未 被 创建 的 类 型 ) 。 我 们 可 以 在 更 多 非 正式 的 API 中 使 
用 接口 继承 ,但 为 了 避免 代码 依赖 于 和 理解 算法 无 关 的 高 级 语言 特性 以 及 额外 的 接口 文件 ， 我们 并 “100 
没有 这 么 做 。 在 某 些 情况 下 Java 的 习惯 用 法 鼓励 我 们 使 用 接口 : 我 们 用 它们 进行 比较 和 近代， 如 表 
1.2.16 所 示 。 我 们 会 在 接触 那些 概念 时 再 详细 研究 它们 。 


表 1.2.16 本 书 中 所 用 到 的 Java 接口 


接口 方 ” 法 章 和 节 
比较 java.lang.Comparable compareTo() 2.1 
CL 梭 
java.util.Comparator compare(Q) 2.5 
java.lang.Iterable iterator() 13 
渤 代 hasNext() 
java.util.Iterator next() 1.3 
remove() 


1.2.5.5 ”实现 继承 

Java 还 支持 另 一 种 继承 机 制 ， 被 称 为 子 类 。 这 种 非常 强大 的 技术 使 程序 员 不 需要 重 写 整个 类 就 
能 改变 它 的 行为 或 者 为 它 添 加 新 的 功能 。 它 的 主要 思想 是 定义 一 个 新 类 ( 子 类 ， 或 称 为 派生 类 ) 来 
继承 另 一 个 类 ( 父 类 , 或 称 为 基 类 ) 的 所 有 实例 方法 和 实例 变量 。 子 类 包含 的 方法 比 父 类 更 多 , 另外 ， 
子 类 可 以 重新 定义 或 者 重 写 父 类 的 方法 。 子 类 继承 被 系统 程序 员 广 泛 用 于 编写 所 谓 可 扩展 的 库 一 一 
任何 一 个 程序 员 (包括 你 ) 都 能 为 另 一 个 程序 员 (或 者 也 许 是 一 个 系统 程序 员 团 队 ) 创建 的 库 添加 
方法 。 这 种 方法 能 够 有 效 地 重用 潜在 的 十 分 庞大 的 库 中 的 代码 。 例 如 ， 这 种 方法 被 广泛 用 于 图 形 用 
户 界面 的 开发 ， 因 此 实现 用 户 所 需要 的 各 种 控件 (下拉 菜 单 ， 剪 切 一 粘贴 ， 文 件 访问 等 ) 的 大 量 代 
码 都 能 够 被 重用 。 子 类 继承 的 使 用 在 系统 程序 员 和 应 用 程序 员 之 间 是 有 和 争议 的 ( 它 和 接口 继承 之 间 
的 优 劣 还 没有 定论 ) 。 在 本 书 中 我 们 会 避免 使 用 它 ， 因 为 它 会 破坏 封装 。 但 这 种 机 制 是 Java 的 一 
部 分 ， 因 此 它 的 残余 是 无 法 避免 的 : 具体 来 说 ， 每 个 类 都 是 Java 的 0bject 类 的 子 类 。 这 种 结构 意 
味 着 每 个 类 都 含有 getClass()、toString()、equals()、hashCode() ( 见 表 1.2.17 ) 和 另外 几 
个 我 们 不 会 在 本 书 中 用 到 的 方法 的 实现 。 实 际 上 ， 每 个 类 都 通过 子 类 继承 从 0bject 类 中 继承 了 这 
些 方法 ， 因 此 任何 用 例 都 可 以 在 任意 对 象 中 调用 这 些 方法 。 我 们 通常 会 重 载 新 类 的 toString()、 
equals() 和 hashCode() 方法 ， 因 为 0bject 类 的 默认 实现 一 般 无 法 提供 所 需 的 行为 。 接 下 来 我 们 
将 讨论 toString() 和 equals()， 在 3.4 节 中 讨论 hashCode()。 
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表 1.2.17 本 书 中 所 使 用 的 由 0bject 类 继承 得 到 的 方法 


页 法 作 “用 章 节 
Class getClass() 该 对 象 的 类 是 什么 1.2 
String toString() 该 对 象 的 字符 串 表示 ll 
boolean equals(Object that) 该 对 象 是 否 和 that 相等 1.2 
int hashCode() 该 对 象 的 散 列 值 3.4 


1.2.5.6 ”字符 串 表示 的 习惯 


按照 习惯 ， 每 个 Java 类 型 都 会 从 0bject 继承 toStringQ 方法 ， 因 此 任何 用 例 都 能 够 调 


用 任意 对 象 的 toString() 方法 。 当 连接 运算 符 的 一 个 操作 数 


是 字符 串 时 ，Java 会 自动 将 另 一 个 


操作 数 也 转换 为 字符 串 ， 这 个 约定 是 这 种 自动 转换 的 基础 。 如 果 一 个 对 象 的 数据 类 型 没有 实现 
toString0) 方法 ， 那 么 转换 会 调用 0bejct 的 默认 实现 。 默 认 实现 一 般 都 没有 多 大 实用 价值 ， 


为 它 只 会 返回 一 个 含有 该 对 象 内 存 地 址 的 字符 串 。 
的 toString 0) 方法 ， 如 下 面 代码 框 的 Date 类 中 力 


因此 我 们 通常 会 为 我 们 的 每 个 类 实现 并 重 写 默认 
中 粗 的 部 分 所 示 。 由 代码 可 以 看 到 ，toStringO) 


方法 的 实现 通常 很 简单 ， 只 需 隐 式 调 用 (通过 + ) 每 个 实例 变量 的 toStringQ 方法 即 可 。 


1.2.5.7 ”封装 类 型 


Java 提供 了 一 些 内 置 的 引用 类 型 , 称 为 封装 类 型 。 每 种 原始 数据 类 型 都 有 一 个 对 应 的 封装 类 型 : 
Boolean、Byte、Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、 
byte、char、double、float、int、1ong 和 short。 这 些 类 主要 由 类 似 于 parseInt() 这 样 的 
静态 方法 组 成 ， 但 它们 也 含有 继承 得 到 的 实例 方法 toString()、compareTo()、equals() 和 


hashCode() 。 在 需要 的 时 候 Java 会 自 


动 将 原始 数据 类 型 转换 为 


时 装 类 型 ， 如 1.3.1.1 节 所 述 。 例 如 ， 


当 一 个 int 值 需要 和 一 个 String 连接 时 ， 它 的 类 型 会 被 转换 为 Integer 并 触发 toString() 方法 。 


1.2.5.8 ”等 价 性 


两 个 对 象 相等 意味 着 什么 ”如 果 我 们 


相同 类 型 的 两 个 引用 变量 a 和 b 进行 等 价 性 测试 (a == 


b ) , 我 们 检测 的 是 它们 的 标识 是 否 相同 , 即 引 用 是 否 相 同 。 一 般 用 例 希 望 能 够 检查 数据 类 型 的 值 (对 
象 的 状态 ) 是 否 相 同 或 者 实现 某 种 针对 该 类 型 的 规则 。Java 为 我 们 开 了 个 头 ， 为 Integer 、Double 
和 String 等 标准 数据 类 型 以 及 一 些 如 File 和 URL 的 复杂 数据 类 型 提供 了 实现 。 在 处 理 这 些 类 型 
的 数据 时 ， 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 均 为 String 类 型 的 值 ， 那 么 当 且 仅 当 x 
和 y 的 长 度 相同 有 旦 每 个 位 置 的 字符 均 相 同时 x.equals(y) 的 返回 值 为 true。 当 我 们 在 定义 自己 的 
数据 类 型 时 ， 比 如 Date 或 Transaction， 需 要 重 载 equals() 方法 。Java 约定 equals() 必须 是 


一 种 等 价 性 关系 。 它 必须 具有 : 


口 自 反 性 ，x.equals (x) 为 true; 
口 对 称 性 ， 当 日 仅 当 y.equals(x) 为 true 时 ，x.equals(y) 返回 true; 

口 传递 性 ， 如 果 x.equals(y) 和 y.equals(z) 均 为 true，x.equals(z) 也 将 为 true。 
男 外 ， 它 必须 接受 一 个 0bject 为 参数 并 满足 以 下 性 质 : 
口 一 致 性 ， 当 两 个 对 象 均 未 被 修改 时 ， 反 复 调用 x.equals(y) 总 是 会 返回 相同 的 值 ; 
口 非 空 性 ，x.equals(Cnu11) 总 是 返回 false。 


这 些 定义 都 是 自然 合理 的 ， 但 确保 这 些 性 质 成 立 并 遵守 Java 的 约定 ， 同 时 又 避免 在 实现 时 做 无 


用 功 却 并 不 容易 ， 如 Date 所 示 。 它 通过 以 下 步 又 做 到 了 这 一 点 。 
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口 如 果 该 对 象 的 引用 和 参数 对 象 的 引用 相同 ， 返 回 true。 这 项 测试 在 成 立时 能 够 免 去 其 他 所 

有 测试 工作 。 

口 如 果 参 数 为 空 (nu11 ) ， 根 据 约定 返回 false ( 还 可 以 避免 在 下 面 的 代码 中 使 用 空 引用 ) 。 

口 如 果 两 个 对 象 的 类 不 同 ， 返 回 false。 要 得 到 一 个 对 象 的 类 ， 可 以 使 用 getClass (0) 方法 。 
请 注意 我 们 会 使 用 == 来 判断 Class 类 型 的 对 象 是 否 相 等 ， 因 为 同一 种 类 型 的 所 有 对 象 的 
getClass() 方法 一 定 能 够 返回 相同 的 引用 。 

口 将 参数 对 象 的 类 型 从 0bject 转换 到 Date ( 因为 前 一 项 测试 已 经 通过 , 这 种 转换 必然 成 功 ) 。 

口 如 果 任 意 实 例 变量 的 值 不 相同 , 返回 false。 对 于 其 他 类 , 等 价 性 测试 方法 的 定义 可 能 不 同 。 

例如 ， 我 们 只 有 在 两 个 Counter 对 象 的 count 变量 相等 时 才 会 认为 它们 相等 。 


public class Date 


private final int month 

private final int day; 

private final int year; 

public Date(int m, int d, int y) 

monthe me uay 三 dear vn 

public int month() 

{ return month; } 

public int dayO 

{ return day; } 

public int yearQ 

{ return year; +} 

public String toStringO) 

{ return month() + "/" + dayGO + "/" + year(); 1} 

public boolean equals(Object x) 

{ 
if (this == x) return trues 
if (x == null) return false; 
if (this.getClass() != x.getClass()) return false; 
Date that = (Date) x; 
if (this.day != that.day) return false; 
if (this.month != that.month) return false; 
if (this.year != that.year) return false; 
return true; 

了 

} 


在 数据 类 型 的 定义 中 重 写 toString() 和 equalsO 〇 方法 


你 可 以 使 用 上 而 的 实现 作为 实现 任意 数据 类 型 的 equals0 方法 的 模板 。 只 要 实现 一 
equalsQ 〇 方法 ， 下 一 次 就 不 会 那么 困难 了 。 
1.2.5.9 内存 管 理 103 
我 们 可 以 为 一 个 引用 变量 赋予 一 个 新 的 值 ， 因 此 一 段 程 序 可 能 会 产生 一 个 无 法 被 引 J 
例如 ， 请 看 图 1.2.9 中 所 示 的 三 行 赋值 语句 。 在 第 三 行 赋值 语句 之 后 ,不 仅 a 和 bb 会 指向 同一 
Date 对 象 (1/1/2011 ) ， 而 且 不 存在 能 够 引用 初始 化 变量 a 的 那个 Date 对 象 的 引用 了 。 ee 
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104 


new Date(12, 31, 1999); 
new Date(1, 1, 2011); 


象 的 唯一 引用 就 是 变量 a, 但 是 该 引用 被 赋值 语句 覆盖 pe 
ate 


了 ， 这 样 的 对 象 被 称 为 孤儿 。 对 象 在 离开 作用 域 之 后 也 a = b; 
会 变 成 孤儿 。Java 程序 经 常会 创建 大 量 对 象 ( 以 及 许多 


保存 原始 数据 类 型 值 的 变量 ) ， 但 在 某 个 时 刻 程 序 只 会 
需要 它们 之 中 的 一 小 部 分 。 因 此 ， 编 程 语言 和 系统 需要 
某 种 机 制 来 在 必要 时 为 数据 类 型 的 值 分 配 内 存 ， 而 在 不 a > le 
需要 时 释放 它们 的 内 存 ( 对 于 一 个 对 象 来 说 ， 有 时 是 在 


它 变 成 孤儿 之 后 ) 。 内 存 管理 对 于 原始 数据 类 型 更 容易 ， 
因为 内 存 分 配 所 需要 的 所 有 信息 在 编译 阶段 就 能 够 获取 。 


Java ( 以 及 大 多 数 其 他 系统 ) 会 在 声明 变量 时 为 它们 预 贸 | 一 亚 儿 对 象 
内 存 空 间 ， 并 会 在 它们 离开 作用 域 后 释放 这 些 空间 。 对 655 12 

象 的 内 存 管理 更 加 复杂 : 系统 会 在 创建 一 个 对 象 时 为 它 656 lm 
分 配 内 存 ， 但 是 程序 在 执行 时 的 动态 性 决定 了 一 个 对 象 ” “”” 引 当 3 

何 时 才 会 变 为 孤儿 ， 系 统 并 不 能 准确 地 知道 应 该 何 时 释 

放 一 个 对 象 的 内 存 。 在 许多 语言 中 ( 例如 C 和 C++) ， 人 

分 配 和 释放 内 存 是 程序 员 的 责任 。 众 所 周知 ， 这 种 操作 812 TL ou 
既 繁 琐 又 容易 出 错 。Java 最 重要 的 一 个 特性 就 是 自动 内 813 |_2011 


存 管理 。 它 通过 记录 孤儿 对 象 并 将 它们 的 内 存 释 放 到 内 


存 池 中 将 程序 员 从 管理 内 存 的 责任 中 解放 出 来 。 这 种 回 L | 

收 内 存 的 方式 叫做 垃圾 回收 。Java 的 一 个 特点 就 是 它 不 

多 许 修改 引用 的 策略 。 这 种 策略 使 Java 能 够 高 效 自动 地 图 1.2.9 孤儿 对 象 

回收 垃圾 。 程 序 员 们 至 今 仍 在 争论 ， 为 获得 无 需 为 内 存 管理 操心 的 方便 而 付出 的 使 用 自动 垃圾 回收 
的 代价 是 否 值得 。 


1.2.5.10 不 可 变性 

不 可 变数 据 类 型 ， 例 如 Date， 指 的 是 该 类 型 的 对 象 中 的 值 在 创建 之 后 就 无 法 再 被 改变 。 与 此 
相反 ， 可 变数 据 类 型 ， 例 如 Counter 或 Accumulator， 能 够 操作 并 改变 对 象 中 的 值 。Java 语言 通 
过 final 修饰 符 来 强制 保证 不 可 变性 。 当 你 将 一 个 变量 声明 为 final 时 ， 也 就 保证 了 只 会 对 它 赋 
值 一 次 ， 可 以 用 赋值 语句 ， 也 可 以 用 构造 函数 。 试 图 改变 final 变量 的 值 的 代码 将 会 产生 一 个 编译 
时 错误 。 在 我 们 的 代码 中 ， 我 们 用 final 修饰 值 不 会 改变 的 实例 变量 。 这 种 策略 就 像 文 档 一 样 ， 说 
明了 这 个 变量 的 值 不 会 再 发 生 改 变 ， 它 能 够 预防 意外 修改 ， 也 能 使 程序 的 调试 更 加 简单 。 像 Date 
这 样 实例 变量 均 为 原始 数据 类 型 上 被 final 修饰 的 数据 类 型 ( 按照 约定 ， 在 不 使 用 子 类 继承 的 代码 
中 ) 是 不 可 变 的 。 数 据 类 型 是 否 可 变 是 一 个 重要 的 设计 决策 ， 它 取决 于 当前 的 应 用 场景 。 对 于 类 似 
于 Date 的 数据 类 型 ， 抽 象 的 目的 是 封装 不 变 的 值 ， 以 便 将 其 和 原始 数据 类 型 一 样 用 于 赋值 语句 、 
作为 图 数 的 参数 或 返回 值 〈 而 不 必 担 心 它们 的 值 会 被 改变 ) 。 程 序 员 在 使 用 Date 时 可 能 会 写 出 操 
作 两 个 Date 类 型 的 变量 的 代码 d = d0， 就 像 操 作 double 或 者 int 值 一 样 。 但 如 果 Date 类 型 是 
可 变 的 且 d 的 值 在 d = d0 之 后 可 以 被 改变 ， 那么 d0 的 值 也 会 被 改变 〈 它们 都 是 指向 同一 个 对 象 
的 引用 ) ! 从 另 一 方面 来 说 ， 对 于 类 似 于 Counter 和 Accumulator 的 数据 类 型 ， 抽 象 的 目的 是 封 
装 变化 中 的 值 。 作 为 用 例 程序 员 ， 你 在 使 用 Java 数组 (可 变 ) 和 Java 的 String 类 型 (不 可 变 ) 时 
就 已 经 遇 到 了 这 种 区 别 。 将 一 个 String 传递 给 一 个 方法 时 ， 你 不 会 担心 该 方法 会 改变 字符 串 中 的 
字符 顺序 ， 但 当 你 把 一 个 数组 传递 给 一 个 方法 时 ， 方 法 可 以 自由 改变 数组 的 内 容 。String 对 象 是 
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不 可 变 的 ， 因 为 我 们 一 般 都 不 希望 String 的 值 改 变 ， 而 Java 数组 是 可 变 的 ， 因 为 我 们 一 般 的 确 希 
望 改变 数组 中 的 值 。 但 也 存在 我 们 希望 使 用 可 变 字符 串 〈 这 就 是 Java 的 StringBuilder 类 存在 的 
目的 ) 和 不 可 变数 组 ( 这 就 是 稍 后 讨论 的 Vector 类 存在 的 目的 ) 的 情况 。 一 般 来 说 ， 不 可 变 的 数 
据 类 型 比 可 变 的 数据 类 型 使 用 更 容易 ， 误 用 更 困难 ， 因 为 能 够 改变 它们 的 值 的 方式 要 少 得 多 。 调 试 
使 用 不 可 变 类 型 的 代码 更 简单 ， 因 为 我 们 更 容易 确保 用 例 代码 中 使 用 它们 的 变量 的 状态 前 后 一 致 。 
在 使 用 可 变数 据 类 型 时 ， 必 须 时 刻 关 注 它们 的 值 会 在 何 时 何 地 发 生变 化 。 而 不 可 变性 的 缺点 在 于 我 
们 需要 为 每 个 值 创建 一 个 新 对 象 。 这 种 开销 一 般 是 可 以 接受 的 ， 因 为 Java 的 垃圾 回收 器 通常 都 为 此 
进行 了 优化 。 不 可 变性 的 另 一 个 缺点 在 于 ，final 非常 不 幸 地 只 能 用 来 保证 原始 数据 类 型 的 实例 变 
量 的 不 可 变性 ， 而 无 法 用 于 引用 类 型 的 变量 。 如 果 一 个 引用 类 型 的 实例 变量 含有 修饰 符 final， 该 
实例 变量 的 值 ( 某 个 对 象 的 引用 ) 就 永远 无 法 改变 了 一 一 它 将 永远 指向 同一 个 对 象 ， 但 对 象 的 值 本 
刁 仍 然 是 可 变 的 。 例 如 ， 这 段 代码 并 没有 实现 一 个 不 可 变 的 数据 类 型 ; 
public class Vector 


{ 


private final double[] coords; 


public Vector(double[] a) 
{ coords = ai } 


上 
用 例 程序 可 以 通过 给 定 的 数组 创建 一 个 Vector 对 象 ， 并 在 构造 函数 执行 之 后 ( 绕 过 API ) 改 
变 Vector 中 的 元 素 的 值 : 


double[] a= { 3.0, 4.0 }; 
Vector vector = new Vector(a); 
a[0] = 0.0; // 绕 过 了 公有 API 


实例 变量 coords[] 是 private 和 final 的 , 但 Vector 是 可 变 的 ， 因 为 用 例 拥 有 指向 数据 
的 一 个 引用 。 任 何 数据 类 型 的 设计 都 需要 考虑 到 不 可 变性 ， 而 且 数 据 类 型 是 否 是 不 可 变 的 则 应 该 在 
API 中 说 明 ， 这 样 使 用 者 才能 知道 该 对 象 中 的 值 是 无 法 
改变 的 。 在 本 书 中 ， 我 们 对 不 可 变性 的 主要 兴趣 在 于 用 ，” 表 1.2.18 可 变 与 不 可 变数 据 类 型 举例 


它 保证 我 们 的 算法 的 正确 性 。 例 如 ， 如 果 一 个 二 分 查找 。””” 可 变数 据 类 型 ” ”不 可 变数 据 类 型 

算法 所 使 用 的 数据 的 类 型 是 可 变 的 ， 那 么 算法 的 用 例 就 Counter Date 

可 能 破坏 我 们 对 二 分 查找 中 的 数组 已 经 有 序 的 假设 。 可 Java 数组 String 让 
变数 据 与 不 可 变数 据 的 示例 见 表 1.2.18。 1 


1.2.5.11 契约 式 设计 

在 最 后 ， 我 们 将 简要 讨论 Java 语言 中 能 够 在 程序 运行 时 检验 程序 状态 的 一 些 机 制 。 为 此 我 们 将 
使 用 两 种 Java 的 语言 特性 : 

口 异常 (Exception ) ， 一 般 用 于 处 理 不 受 我 们 控制 的 不 可 预见 的 错误 ; 
口 断言 ( Assertion ) ， 验 证 我 们 在 代码 中 做 出 的 一 些 假设 。 

大 量 使 用 异常 和 断言 是 很 好 的 编程 实践 。 为 了 节约 版 面 我 们 在 本 书 中 极 少 使 用 它们 ， 但 你 在 本 
书 网 站 上 的 所 有 代码 中 都 会 找到 它们 。 这 些 代码 中 的 每 个 和 异常 条 件 以 及 断言 恒等式 有 关 的 算法 周 
围 都 有 大 量 的 注释 。 
1.2.5.12 ”异常 与 错误 

异常 和 错误 都 是 在 程序 运行 中 出 现 的 破坏 性 事件 。Java 采取 的 行动 称 为 抛 出 异常 或 是 
抛 出 错误 。 我 们 已 经 在 学 习 Java 的 基本 特性 的 过 程 中 遇 到 过 Java 系统 方法 抛 出 的 异常 : 
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StackOverflowError、 ArithmeticException、 ArrayIndexOutOfBoundsException.、 
Out0fMemoryError 和 Nu11PointerException 都 是 典型 的 例子 。 你 也 可 以 创建 自己 的 异常 ， 最 简 
单 的 一 种 是 RuntimeException， 它 会 中 断 程 序 的 执行 并 打印 出 一 条 出 错 信息 : 

throw new RuntimeException("Error message here."); 

一 种 叫做 快速 出 错 的 常规 编程 实践 提倡 , 一 旦 出 错 就 立刻 抛 出 异常 , 使 定位 出 错位 置 更 容易 (这 
和 忽略 错误 并 将 异常 推迟 到 以 后 处 理 的 方式 相反 ) 。 
1.2.5.13 ”断言 

断言 是 一 条 需要 在 程序 的 某 处 确认 为 true 的 布尔 表达 式 。 如 果 表 达 式 的 值 为 false， 程 序 
将 会 终止 并 报告 一 条 出 错 信息 。 我 们 使 用 断言 来 确定 程序 的 正确 性 并 记录 我 们 的 意图 。 例 如 ， 假 
设 你 计算 得 到 一 个 值 并 可 以 将 它 作 为 索引 访问 一 个 数组 。 如 果 该 值 为 负数 ， 稍 后 它 将 会 产生 一 条 
ArrayIndexOutOfBoundsException 异常 。 但 如 果 代 码 中 有 一 句 assert index >= 0;， 你 就 能 
找到 出 错 的 位 置 。 还 可 以 选择 性 地 加 上 一 条 详细 的 消息 来 辅助 定位 bug， 例 如 : 


assert index >= 0 : "Negative index in method X"; 

默认 设置 没有 启用 断言 ,可 以 在 命令 行 下 使 用 -enableassertions 标 志 ( 简写 为 -ea ) 启 用 断言 。 
断言 的 作用 是 调试 : 程序 在 正常 操作 中 不 应 该 依赖 断言 ， 因 为 它们 可 能 会 被 禁用 。 系 统 编程 课程 会 
学 习 使 用 断言 来 保证 代码 永远 不 会 被 系统 错误 终止 或 是 进入 死 循环 。 一 种 叫做 右 约 式 设计 的 编程 模 
型 采用 的 就 是 这 种 思想 。 数 据 类 型 的 设计 者 需要 说 明 前 提 条 件 ( 用 例 在 调用 某 个 方法 前 必须 满足 的 
条 件 ) 、 后 置 条 件 ( 实现 在 方法 返回 时 必须 达到 的 要 求 ) 和 副作用 (方法 可 能 对 对 象 状态 产生 的 任 
何其 他 变更 ) 。 在 开发 过 程 中 ， 这 些 条 件 可 以 用 断言 进行 测试 。 
1.2.5.14 ”小结 

本 节 所 讨论 的 语言 机 制 说 明 实用 数据 类 型 的 设计 中 所 遇 到 的 问题 并 不 容易 解决 。 专 家 们 仍然 在 
讨论 支持 某 些 我 们 已 经 学 习 过 的 设计 理念 的 最 佳 方法 。 为 什么 Java 不 允许 将 函数 作为 参数 ?为 什么 
Matlab 会 复制 作为 参数 传递 给 函数 的 数组 ?正如 本 章 前 文 所 述 ， 如 果 你 总 是 抱怨 编程 语言 的 特性 ， 
那么 你 只 能 自己 设计 编程 语言 了 。 如 果 你 不 希望 这 样 ， 最 好 的 策略 就 是 使 用 应 用 最 广泛 的 编程 语言 。 
大 多 数 系统 都 含有 大 量 的 库 ， 在 适当 的 时 候 你 应 该 能 用 到 它们 ， 但 通常 你 都 能 够 通过 构造 易于 移植 
到 其 他 编程 语言 的 抽象 层 来 简化 用 例 代 码 并 进行 自我 保护 。 设 计数 据 类 型 是 你 的 主要 目标 ， 从 而 使 
大 多 数 工 作 都 能 在 抽象 层次 完成 ， 且 和 手头 的 问题 匹配 。 

表 1.2.19 总 结 了 我 们 讨论 过 的 各 种 Java 类 。 


表 1.2.19 Java 类 (数据 类 型 的 实现 ) 


类 的 类 别 举 例 特 ”点 
静态 方法 Math StdIn StdOut 没有 实例 变量 
不 可 变 的 抽象 数据 类 型 Date Transaction String Integer ， 实例 变量 均 为 private 
实例 变量 均 为 final 
保护 性 复制 引用 类 型 数据 
注意 : 这 些 都 是 必要 但 不 充分 条 件 
可 变 的 抽象 数据 类 型 Counter Accumulator 实例 变量 均 为 private 
并 非 所 有 实例 变量 均 为 final 
具有 1/O 副作用 的 抽象 数据 类 型 ”VisualAccumulator In Out Draw 实例 变量 均 为 private 
实例 方法 会 处 理 IO 
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问 为 什么 要 使 用 数据 抽象 ? 

答 ” 它 能 够 帮助 我 们 编写 可 靠 而 正确 的 代码 。 例 如 ， 在 2000 年 的 美国 总 统 竞 选中 ，Al Gore 在 弗 罗 里 达 
州 的 Volusia 县 的 一 个 电子 计 票 机 上 得 到 了 -16022 张 选票 一 一 显然 电子 计 票 机 软件 中 的 选票 计数 器 
的 封装 不 正确 ! 

问 为 什么 要 区 别 原始 数据 类 型 和 引用 类 型 ? 为 什么 不 只 用 引用 类 型 ? 

答 ”因为 性 能 。Java 提供 了 Integer、Double 等 和 原始 数据 类 型 对 应 的 引用 类 型 ， 以 供 希 望 忽略 这 些 类 
型 的 区 别 的 程序 员 使 用 。 原 始 数据 类 型 更 接近 计算 机 硬件 所 支持 的 数据 类 型 ， 因 此 使 用 它们 的 程序 
比 使 用 引用 类 型 的 程序 运行 得 更 快 。 

问 ”数据 类 型 必须 是 抽象 的 吗 ? 

答 不 。Java 也 支持 public 和 protected 来 帮助 用 例 直接 访问 实例 变量 。 如 正文 所 述 ， 人 允许 用 例 代码 

直接 访问 数据 所 带 来 的 好 处 比 不 上 对 数据 的 特定 表示 方式 的 依赖 所 带 来 的 坏处 ， 因 此 我 们 代码 中 所 

有 的 实例 变量 都 是 私有 的 ( private ) ， 有 了 时 也 会 使 用 私有 实例 方法 在 公有 方法 之 间 共 享 代码 。 

问 ”如 果 我 在 创建 一 个 对 象 时 忘记 使 用 new 关键 字 会 发 生 什 么 ? 

答 ” 对 于 Java， 这 种 代码 看 起 来 就 好 像 你 希望 调用 一 个 静态 方法 ， 却 得 到 一 个 对 象 类 型 的 返回 值 。 因 为 
并 没有 定义 这 样 一 个 方法 ,你 得 到 的 错误 信息 和 引用 一 个 未 定义 的 符号 是 一 样 的 。 如 果 编 译 这 段 代 码 : 


Counter c = Counter("test"); 
会 得 到 这 条 错误 信息 : 


cannot find symbol 


Symbol : method Counter(String) 
如 果 你 提供 给 构造 函数 的 参数 数量 不 对 ， 也 会 得 到 相同 的 出 错 信 息 。 110 


问 ”如 果 我 在 创建 一 个 对 象 数组 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 
答 创建 每 个 对 象 都 需要 使 用 new， 所 以 要 创建 一 个 含有 V 个 对 象 的 数组 ， 需 要 使 用 N+1 次 new 关键 字 : 
创建 数组 需要 一 次 ， 创 建 每 个 对 象 各 需要 一 次 。 如 果 忘 了 创建 数组 : 


Counter[] a; 
a[0] = new Counter("test"); 


你 得 到 的 错误 信息 和 尝试 为 一 个 未 初始 化 的 变量 赋值 是 一 样 的 : 
variable a might not have been initialized 

a[0] = new Counter("test"); 

人 


一 


但 如 果 在 创建 数组 中 的 一 个 对 象 时 忘 了 使 用 new， 然 后 又 尝试 调用 它 的 方法 ， 会 得 到 一 个 
NullPointerException: 


Counter[] a = new Counter[2]; 
a[0].increment(); 


问 为 什么 不 用 StdOut.println(Cx.toString()) 来 打印 对 象 ? 

答 ” 这 条 语句 也 可 以 ,但 Java 能 够 自动 调用 任意 对 象 的 toStringQ 方法 来 帮 我 们 省 去 这 些 麻 烦 ， 因 为 
println0) 接受 的 参数 是 一 个 0bject 对 象 。 

问 ”指针 是 什么 ? 

答 ” 问 得 好 。 或 许 上 面 那个 异常 应 该 叫做 Nu11ReferenceException。 和 Java 的 引用 一 样 ， 可 以 把 指 
针 看 做 机 器 地 址 。 在 许多 编程 语言 中 ， 指 针 是 一 种 原始 数据 类 型 ， 程 序 员 可 以 用 各 种 方法 操作 它 。 
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但 众所周知 ， 指 针 的 编程 非常 容易 出 错 ， 因 此 需要 精心 设计 指针 类 的 操作 以 帮助 程序 员 避 免 错 误 。 
Java 将 这 种 观点 发 挥 到 了 极致 ( 许多 主流 编程 语言 的 设计 者 也 赞同 这 种 做 法 ) 。 在 Java 中 ， 创 建 引 
用 的 方法 只 有 一 种 ( new) ， 且 改变 引用 的 方法 也 只 有 一 种 (赋值 语句 ) 。 也 就 是 说 ， 程 序 员 能 对 引 
用 进行 的 操作 只 有 创建 和 复制 。 在 编程 语言 的 行 话 里 ，Java 的 引用 被 称 为 安全 指针 ， 因 为 Java 能 够 
保证 每 个 引用 都 会 指向 某 种 类 型 的 对 象 〈 而 且 它 能 找 出 无 用 的 对 象 并 将 其 回收 ) 。 习 惯 于 编写 直接 
操作 指针 的 程序 员 认为 Java 完全 没有 指针 ， 但 人 们 仍 在 为 是 否 真 的 需要 不 安全 的 指针 而 争论 。 

我 在 哪里 能 够 找到 Java 如 何 实现 引用 和 进行 垃圾 收集 的 细节 ? 

Java 系统 的 实现 各 有 不 同 。 例 如 ， 实 现 引 用 的 一 种 自然 方式 是 使 用 指针 ( 机 器 地 址 ) ; 而 另 一 种 使 
用 的 则 可 能 是 句柄 (指针 的 指针 ) 。 前 者 访问 数据 的 速度 更 快 ， 而 后 者 则 能 够 更 好 地 实现 垃圾 回收 。 
导入 (import ) 一 个 对 象 名 意味 着 什么 ? 

没什么 ， 只 是 可 以 少 打 一 些 字 。 如 果 不 想 使 用 import 语句 ， 你 也 可 以 在 代码 中 用 java.util1. 
Arrays 代替 所 有 的 Arrays。 

实现 继承 有 什么 问题 ? 

子 类 继承 阻碍 模块 化 编程 的 原因 有 两 点 。 第 一 ， 父 类 的 任何 改动 都 会 影响 它 的 所 有 子 类 。 子 类 的 开 
发 不 可 能 和 父 类 无 关 。 事实 上 ， 子 类 是 完全 依赖 于 父 类 的 。 这 种 问题 被 称 为 脆弱 的 基 类 问题 。 第 二 ， 
子 类 代码 可 以 访问 所 有 实例 变量 ， 因 此 它们 可 能 会 扭曲 父 类 代码 的 意图 。 例 如 ， 用 于 选票 统计 系统 
的 Counter 类 的 设计 者 可 能 会 尽 最 大 努力 保证 Counter 每 次 只 能 将 计数 器 加 一 (还 记得 Al Gore 的 
问题 吗 ) 。 但 它 的 子 类 可 以 完全 访问 这 个 实例 变量 ， 因 此 可 以 将 它 改变 为 任意 值 。 

怎样 才能 使 一 个 类 不 可 变 ? 

要 保证 含有 一 个 可 变 类 型 的 实例 变量 的 数据 类 型 的 不 可 变性 ， 需 要 得 到 一 个 本 地 副本 ， 这 被 称 为 保 
护 性 复制 ， 但 这 也 不 一 定 能 够 达到 目的 。 得 到 副本 是 一 个 方面 ， 保 证 没有 任何 实例 方法 能 够 改变 数 
据 的 值 是 另 一 方面 。 

什么 是 空 (nul1 ) ? 


它 是 一 个 不 指向 任何 对 象 的 字面 量 。 引 用 nu11 调用 一 个 方法 是 没有 意义 的 ， 并 且 会 产生 


怠 


Nu11PointerException。 如 果 你 得 到 了 这 条 错误 信息 ， 请 检查 并 确认 构造 函数 是 否 正确 地 初始 化 
了 类 的 所 有 实例 变量 。 

实现 某 种 数据 类 型 的 类 中 能 否 存 在 静态 方法 ? 
当然 可 以 。 例 如 ， 我 们 实现 的 所 有 类 中 都 含有 一 个 mainQ 〇 方法。 另外 ， 对 于 涉及 多 个 对 象 的 操作 ， 
如 果 它 们 都 不 是 触发 该 方法 的 合适 对 象 ， 那 么 就 应 该 考虑 添加 一 个 静态 方法 。 例 如 ,我们 可 以 在 
Point 类 中 定义 如 下 静态 方法 : 
public static double distance(Point a, Point b) 


{ 


return a.distTo(b); 
} 


这 种 方法 常常 能 够 简化 用 例 代码 。 

除了 参数 变量 、 局 部 变量 和 实例 变量 外 还 有 其 他 种 类 的 变量 吗 ? 

如 果 你 在 类 的 声明 中 包含 了 关键 字 static (在 其 他 类 型 之 前 ) ， 就 创建 了 一 种 称 为 静态 变量 的 完 
全 不 同 的 变量 。 和 实例 变量 一 样 ， 类 中 的 所 有 方法 都 可 以 访问 静态 变量 ,但 静态 变量 却 并 不 和 任 
何 具 体 的 对 象 相 关联 。 在 较 老 的 编程 语言 中 ， 这 种 变量 被 称 为 全 局 变量 ， 因 为 它们 的 作用 域 是 全 
局 的 。 在 现代 编程 中 ， 我 们 和 希望 限制 变量 的 作用 域 ， 因 此 很 少 使 用 这 种 变量 。 在 使 用 它们 时 会 非 
常 小 心 。 
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问 ”什么 是 齐 用 (deprecated ) 的 方法 ? 

答 不 再 被 支持 但 为 了 保持 兼容 性 而 留 在 API 中 的 方法 叫做 弃 用 的 方法 。 例 如 ，Java 曾经 包含 了 一 个 
Character.isSpace() 的 方法 ,程序 员 也 使 用 这 个 方法 编写 了 一 些 程序 。 当 Java 的 设计 者 们 后 来 希 
望 支持 Unicode 空白 字符 时 ， 他 们 无 法 既 改 变 isSpace() 的 行为 又 不 损害 用 例 程序 。 因 此 他 们 添加 
了 一 个 新 方法 Character.isWhiteSpace() 并 放弃 了 老 的 方法 。 随 着 时 间 的 推移 ， 这 种 方式 显然 会 
使 API 更 复杂 。 有 了 时候 甚至 整个 类 都 会 被 弃 用 。 例 如 ，Java 为 了 更 好 地 支持 国际 化 就 将 它 的 java. 


' 


uti1.Date 标记 为 弃 用 。 113 
图 练习 
1.2.1 编写 一 个 Point2D 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 在 单位 正方 形 中 生成 NN 个 随机 点 ， 然 后 计 
算 两 点 之 间 的 最 近 距 离 。 
1.2.2 ”编写 一 个 IntervallD 的 用 例 ， 从 命令 行 接受 一 个 整数 W。 从 标准 输入 中 读 取 NN 个 间隔 ( 每 个 间隔 


由 一 对 double 值 定 义 ) 并 打印 出 所 有 相交 的 间隔 对 。 

1.2.3 ”编写 一 个 Interval2D 的 用 例 ， 从 命令 行 接受 参数 N、min 和 max。 生 成 N 个 随机 的 2D 间隔 ， 其 宽 
和 高 均匀 地 分 布 在 单位 正方 形 中 的 min 和 max 之 间 。 用 StdDraw 画 出 它们 并 打印 出 相交 的 间隔 对 
的 数量 以 及 有 包含 关系 的 间隔 对 数量 。 

1.2.4 ”以 下 这 段 代码 会 打印 出 什么 ? 
String stringl = "hello"; 
String string2 = stringl; 
stringl = "world"; 


Stdout.printlnCstring1) ; 
Stdout.printlnCstring2) ; 


1.2.5 以 下 这 段 代码 会 打印 出 什么 ? 
String s = "Hello World"; 
s.toUpperCaseQO; 
s.substring(6, 11); 
StdOut.println(s); 


答 : "Hello Wor1d"。String 对 象 是 不 可 变 的 一 一 所 有 字符 串 方 法 都 会 返回 一 个 新 的 String 对 象 
(但 它们 不 会 改变 参数 对 象 的 值 ) 。 这 段 代码 忽略 了 返回 的 对 象 并 直接 打印 了 原 字 符 串 。 要 打印 出 
"WORLD"， 请 用 s = s.toUpperCase() 和 s = s.substring(6，11)。 
1.2.6 ”如 果 字 符 串 s 中 的 字符 循环 移动 任意 位 置 之 后 能 够 得 到 男 一 个 字符 串 t， 那 么 s 就 被 称 为 的 回 
水 变 位 (circular rotation ) 。 例 如 ，ACTGACG 就 是 TGACGAC 的 一 个 回环 变 位 ， 反 之 亦 然 。 判 定 这 
个 条 件 在 基因 组 序列 的 研究 中 是 很 重要 的 。 编 写 一 个 程序 检查 两 个 给 定 的 字符 串 s 和 t 是 否 互 为 [114 
回环 变 位 。 提 示 : 答案 只 需要 一 行 用 到 index0f() 、1ength() 和 字符 串 连接 的 代码 。 
1.2.7 ”以 下 递归 函数 的 返回 值 是 什么 ? 


public static String mystery(String s) 
{ 


int N = s.lengthO; 

if (N <= 1) return s; 

String a = s.substring(0, N/2); 
String b = s.substring(N/2, N); 
return mystery(b) + mystery(a); 


1.2.8 设 a[] 和 b[] 均 为 长 数 百 万 的 整形 数组 。 以 下 代码 的 作用 是 什么 ? 有效 吗 ? 


1.2.10 
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1.2.15 


1.2.16 


int[] t =a; a=b; b=t; 
答 : 这 段 代 码 会 将 它们 交换 。 它 的 效率 不 可 能 再 高 了 ， 因 为 它 复制 的 是 引用 而 不 需要 复制 数 百 万 
个 元 素 。 
修改 BinarySearch (请 见 1.1.10.1 节 中 的 二 分 查找 代码 ) ， 使 用 Counter 统计 在 有 查找 中 被 检 
查 的 键 的 总 数 并 在 查找 全 部 结束 后 打印 该 值 。 提 示 : 在 main() 中 创建 一 个 Counter 对 象 并 将 它 
作为 参数 传递 给 rank O 。 
编写 一 个 类 VisualCounter， 文 持 加 一 和 减 一 操作 。 它 的 构造 函数 接受 两 个 参数 N 和 max， 其 
中 N 指定 了 操作 的 最 大 次 数 ，max 指定 了 计数 器 的 最 大 绝对 值 。 作 为 副作用 ， 用 图 像 显 示 每 次 计 
数 器 变化 后 的 值 。 
根据 Date 的 API 实现 一 个 smartDate 类 型 ， 在 日 期 非法 时 抛 出 一 个 异常 。 
为 SmartDate 添加 一 个 方法 day0fTheWeek()， 为 日 期 中 每 周 的 日 返回 Monday、Tuesday、 
Wednesday、Thursday、Friday、Saturday 或 Sunday 中 的 适当 值 。 你 可 以 假定 时 间 是 21 世纪 。 
我们 对 Date 的 实现 ( 请 见 表 1.2.12 ) 作为 模板 实现 Transaction 类 型 。 
用 我 们 对 Date 中 的 equals 〇 方法 的 实现 (请 见 1.2.5.8 市 中 的 Date 类 代码 框 ) 作为 模板 ， 实 
现 Transaction 中 的 equals 0 〇 方法 。 


oe 


文件 输入 。 基 于 String 的 sp1it0 方法 实现 In 中 的 静态 方法 readInts()。 
解答 : 


public static int[] readInts(String name) 
{ 


In in = new In(name); 
String input = in.readA11(0) ; 

String[] words = input.split("\\s+"); 
int[] ints = new int[words.length] ; 
forCint i = 0; i < word.length; i++) 

ints[i] = Integer.parseInt(words[i]); 
return ints; 


} 
我 们 会 在 1.3 节 中 学 习 另 一 个 不 同 的 实现 (请 见 1.3.1.5 节 ) 。 
有 理 数 。 为 有 理 数 实现 一 个 不 可 变数 据 类 型 Rational ， 支 持 加 减 乘除 操作 。 


public class Rational 


Rational(int numerator, int denominator) 


Rational plus(Rational b) 该 数 与 b 之 和 
Rational minus(Rational b) 该 数 与 b 之 差 
Rational times(Rational b) 该 数 与 b 之 积 
Rational divides(Rational b) 该 数 与 5b 之 商 
boolean equals(Rational that) 该 数 与 that 相等 吗 
String toString(O) 对 象 的 字符 串 表 示 


无 需 测试 溢出 〈 请 见 练习 1.2.17 ) ， 只 需 使 用 两 个 1ong 型 实例 变量 表示 分 子 和 分 母 来 控制 溢出 
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的 可 能 性 。 使 用 欧 几 里 得 算法 来 保证 分 子 和 分 母 没 有 公 因 子 。 编 写 一 个 测试 用 例 检测 你 实现 的 
所 有 方法 。 117 
1.2.17 有 理 数 实现 的 健壮 性 。 在 Rational (请 见 练习 1.2.16 ) 的 开发 中 使 用 断言 来 防止 溢出 。 
1.2.18 累加 器 的 方差 。 以 下 代码 为 Accumulator 类 添加 了 varGO 和 stddevQ 〇 方法 ， 它 们 计算 了 
addDataValue0) 方法 的 参数 的 方差 和 标准 差 ， 验 证 这 段 代 码 。 


public class Accumulator 
private double m; 
private double s; 
private int N; 
public void addDataValue(double x) 
{ 


N++; 
S 
m 


=S+1.0* (N-1)/N* (x- mx (x - m); 
=m+ (x- nm /Ni; 

} 

public double mean() 

{ return m; } 

public double varQO 

{ return s/(N - 1); } 

public double stddev() 

{ return Math.sqrt(this.varO); 了 
了 


与 直接 对 所 有 数据 的 平方 求 和 的 方法 相 比 较 ， 这 种 实现 能 够 更 好 地 避免 四 售 五 人 产生 的 误差 。 118 
1.2.19 字符 串 解析 。 为 你 在 练习 1.2.13 中 实现 的 Date 和 Transaction 类 型 编写 能 够 解析 字符 串 数据 
的 构造 函数 。 它 接受 一 个 String 参数 指定 的 初始 值 ， 格 式 如 表 1.2.20 所 示 : 


表 1.2.20 被 解析 的 字符 串 的 格式 


类 型 格 式 举 例 
Date 1 斜 杠 分 隔 的 整数 5/22/1939 
Transaction 客户 、 日 期 和 金额 ， 由 空白 字符 分 隔 Turing 5/22/1939 11.99 
部 分 解答 : 
public Date(String date) 


本 
String[] fields = date.split("/"); 


month = Integer.parseInt(fields[0]); 
day = Integer.parseInt(fields[1]); 
year = Integer.parseInt(fields[2]); 119 
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1.3 背包、 队列 和 栈 


许多 基础 数据 类 型 都 和 对 象 的 集合 有 关 。 具 体 来 说 ， 数 据 类 型 的 值 就 是 一 组 对 象 的 集合 ， 所 有 
操作 都 是 关于 添加 、 删 除 或 是 访问 集合 中 的 对 象 。 在 本 节 中 ， 我 们 将 学 习 三 种 这 样 的 数据 类 型 ， 分 
别 是 背包 (Bag ) 、 队 列 (CQueue ) 和 栈 ( Stack ) 。 它 们 的 不 同 之 处 在 于 删除 或 者 访问 对 象 的 顺序 不 同 。 

背包 、 队 列 和 栈 数 据 类 型 都 非常 基础 并 且 应 用 广泛 。 我 们 在 本 书 的 各 种 实现 中 也 会 不 断 用 到 它 
们 。 除 了 这 些 应 用 以 外 ， 本 节 中 的 实现 和 用 例 代 码 也 展示 了 我 们 开发 数据 结构 和 算法 的 一 般 方式 。 


本 节 的 第 一 个 目标 是 说 明 我 们 对 集合 中 的 对 象 的 表示 方式 将 直接 影 


向 各 种 操作 的 效率 。 对 于 集 


合 来 说 ,我 们 将 会 设计 适 于 表示 一 组 对 象 的 数据 结构 并 高 效 地 实现 所 需 的 方法 。 
本 节 的 第 二 个 目标 是 介绍 泛 型 和 和 迭代 。 它 们 都 是 简单 的 Java 概念 ， 但 能 极 大 地 简化 用 例 代码 。 
它们 是 高 级 的 编程 语言 机 制 ， 虽 然 对 于 算法 的 理解 并 不 是 必需 的 ， 但 有 了 它们 我 们 能 够 写 出 更 加 清 


晰 、 简 洁 和 优美 的 用 例 〈 以 及 算法 的 实现 ) 代码 。 


本 节 的 第 三 个 目标 是 介绍 并 说 明 链 式 数 据 结 构 的 重要 性 ， 特 别 是 经 典 数 据 结构 链表 ， 有 了 它 我 
们 才能 高 效 地 实现 背包 、 队 列 和 栈 。 理 解 链 表 是 学 习 各 种 算法 和 数据 结构 中 最 关键 的 第 一 步 。 

对 于 这 三 种 数据 结构 ， 我 们 都 会 学 习 其 API 和 用 例 ， 然 后 再 讨论 数据 类 型 的 值 的 所 有 可 能 的 表 
示 方 法 以 及 各 种 操作 的 实现 。 这 种 模式 会 在 全 书 中 反复 出 现 〈 且 数据 结构 会 越 来 越 复杂 ) 。 这 里 的 


实现 是 下 文 所 有 实现 的 模板 ， 值 得 仔细 研究 。 


1.3.1 API 
照例 ， 我 们 对 集合 型 的 抽象 数据 类 型 的 讨论 从 定义 它们 的 API 开 


始 ， 如 表 1.3.1 所 示 。 每 份 


API 都 含有 一 个 无 参数 的 构造 函数 、 一 个 向 集合 中 添加 单个 元 素 的 方法 、 一 个 测试 集合 是 否 为 空 


的 方法 和 一 个 返回 集合 大 小 的 方法 。Stack 和 Queue 都 含有 一 个 能 够 


州 除 集合 中 的 特定 元 素 的 方 


法 。 除 了 这 些 基 本 内 容 之 外 ， 我 们 将 在 以 下 几 节 中 解释 这 几 份 API 反映 出 的 两 种 Java 特性 : 泛 型 


与 迭代 。 
表 1.3.1 泛 型 可 迭代 的 基础 集合 数据 类 型 的 API 
背包 
public class Bag<Item> implements Iterable<Item> 
Bag() 创建 一 个 空 青 包 
void add(Item item) 添加 一 个 元 素 
boolean isEmptyO) 背包 是 否 为 空 
int size() 背包 中 的 元 素数 量 


先进 先 出 〈《FIFO) 队列 


public class Queue<Item> implements Iterable<Item> 


Queue() 创建 空 队列 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeueQ) 删除 最 早 添加 的 元 素 
boolean isEmptyO) 队列 是 否 为 空 
int size() 队列 中 的 元 素数 量 
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( 续 ) 


下 压 〈 后 进 先 出 ，LIFO) 栈 


public class Stack<Item> implements Iterable<Item> 


StackO) 创建 一 个 空 栈 
void push(Item item) 添加 一 个 元 素 
Item popQO 删除 最 近 添 加 的 元 素 
boolean isEmpty() 栈 是 否 为 空 
int size() 栈 中 的 元 素数 量 
1.3.1.1 泛 型 


集合 类 的 抽象 数据 类 型 的 一 个 关键 特性 是 我 们 应 该 可 以 用 它们 存储 任意 类 型 的 数据 。 一 种 特别 
的 Java 机 制 能 够 做 到 这 一 点 ， 它 被 称 为 泛 型 ， 也 叫做 参数 化 类 型 。 泛 型 对 编程 语言 的 影响 非常 深 
刻 ， 许 多 语言 并 没有 这 种 机 制 (包括 早期 版 本 的 Java ) 。 在 这 里 我 们 对 泛 型 的 使 用 仅 限 于 一 点 额外 
的 Java 语法 ,非常 容易 理解 。 在 每 份 API 中 ， 类 名 后 的 <Item> 记号 将 Item 定义 为 一 个 类 型 参数 ， 
它 是 一 个 象征 性 的 占 位 符 ， 表 示 的 是 用 例 将 会 使 用 的 某 种 具体 数据 类 型 。 可 以 将 Stack<Item> 理 
解 为 某 种 元 素 的 栈 。 在 实现 Stack 时 ， 我 们 并 不 知道 Item 的 具体 类 型 ， 但 用 例 可 以 用 我 们 的 栈 处 
理 任意 类 型 的 数据 ， 甚 至 是 在 我 们 的 实现 之 后 才 出 现 的 数据 类 型 。 在 创建 栈 时 ， 用 例会 提供 一 种 具 
体 的 数据 类 型 : 我 们 可 以 将 Item 替换 为 任意 引用 数据 类 型 (Item 出 现 的 每 个 地 方 都 是 如 此 ) 。 这 
种 能 力 正 是 我 们 所 需要 的 。 例 如 ， 可 以 编写 如 下 代码 来 用 栈 处 理 String 对 象 : 

Stack<String> stack = new Stack<String>() ; 

stack.push("Test"); 


String next = stack.popQO; 


并 在 以 下 代码 中 使 用 队列 处 理 Date 对 象 : 


Queue<Date> queue = new Queue<Date>() ; 
queue.enqueue(new Date(12, 31, 1999)); 


Date next = queue.dequeue(); 

如 果 你 尝试 向 stack 变量 中 添加 一 个 Date 对 象 (或 是 任何 其 他 非 String 类 型 的 数据 ) 或 者 
向 queue 变量 中 添加 一 个 String 对 象 (或 是 任何 其 他 非 Date 类 型 的 数据 ) ， 你 会 得 到 一 个 编译 
时 错误 。 如 果 没 有 泛 型 , 我 们 必须 为 需要 收集 的 每 种 数据 类 型 定义 ( 并 实现 ) 不 同 的 API。 有 了 泛 型 ， 
我 们 只 需要 一 份 API ( 和 一 次 实现 ) 就 能 够 处 理 所 有 类 型 的 数据 ， 甚 至 是 在 未 来 定义 的 数据 类 型 。 
你 很 快 将 会 看 到 ， 使 用 泛 型 的 用 例 代码 很 容易 理解 和 调试 ， 因 此 全 书 中 我 们 都 会 用 到 它 。 
1.3.1.2 ”自动 装 箱 

类 型 参数 必须 被 实例 化 为 引用 类 型 ， 因 此 Java 有 一 种 特殊 机 制 来 使 泛 型 代码 能 够 处 理 原 始 
数据 类 型 。 我 们 还 记得 Java 的 封装 类 型 都 是 原始 数据 类 型 所 对 应 的 引用 类 型 : Boolean、Byte、 
Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、byte、char、 
double、float 、int、1ong 和 short。 在 处 理 赋值 语句 、 方 法 的 参数 和 算术 或 逻辑 表达 式 时 ， 
Java 会 自动 在 引用 类 型 和 对 应 的 原始 数据 类 型 之 间 进 行 转换 。 在 这 里 ， 这 种 转换 有 助 于 我 们 同时 使 
] 泛 型 和 原始 数据 类 型 。 例 如 : 
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Stack<Integer> stack = new Stack<Integer>() ; 
stack.push(17); // 自动 装 箱 (int -> Integer) 
int i = stack.pop(); // 自动 拆 箱 (Integer -> int) 


自动 将 一 个 原始 数据 类 型 转换 为 一 个 封 流 类 型 被 称 为 自动 装 箱 ， 


自动 将 一 个 


时 装 类 型 转换 为 一 


个 原始 数据 类 型 被 称 为 自动 折 箱 。 在 这 个 例子 中 ， 当 我 们 将 一 个 原始 类 型 的 值 17 传递 给 pushQ 方 
法 时 ，Java 将 它 的 类 型 自动 转换 ( 自动 装 箱 ) 为 Integer。pop() 方法 返回 了 一 个 Integer 类 型 的 
值 ，Java 在 将 它 赋予 变量 i 之 前 将 它 的 类 型 自动 转换 ( 自动 拆 箱 ) 为 了 int。 


1.3.1.3 ”可 迭代 的 集合 类 型 
对 于 许多 应 


中 的 所 有 元 素 。 这 种 模式 非常 重要 ， 在 Java 和 其 他 许多 语言 


具体 实现 。 例 如 ,假设 用 例 在 Queue 中 维护 一 个 交易 集合 ， 如 下 : 


Queue<Transaction> collection = new Queue<Transaction>() ; 


如 果 集 合 是 可 迭代 的 ， 用 例 用 一 行 语句 即 可 打印 出 交易 的 列表 : 


for (Transaction 七 : collection) 
{ stdout.printlnCt); +} 


这 种 语法 叫做 foreach 语句 : 可 以 将 for 语句 看 做 对 于 集合 
中 的 每 个 交易 t(foreach)， 执 行 以 下 代码 段 。 这 段 用 例 代码 不 需 
要 知道 集合 的 表示 或 实现 的 任何 细节 ， 它 只 想 逐 个 处 理 集合 中 的 
元 素 。 相 同 的 for 语句 也 可 以 处 理 交 易 的 Bag 对 和 象 或 是 任何 可 适 
代 的 集合 。 很 难 想象 还 有 比 这 更 加 清晰 和 简洁 的 代码 。 你 将 会 看 到 ， 
支持 这 种 迭代 需要 在 实现 中 添加 额外 的 代码 ， 但 这 些 工作 是 值 
得 的 。 

有 趣 的 是 ，Stack 和 Queue 的 API 的 唯一 不 同 之 处 只 是 它 
们 的 名 称 和 方法 名 。 这 让 我 们 认识 到 无 法 简单 地 通过 一 列 方法 
的 签名 说 明 一 个 数据 类 型 的 所 有 特点 。 在 这 里 ， 只 有 自然 语言 
的 描述 才能 说 明 选 择 被 删除 元 素 (或 是 在 foreach 语句 中 下 一 
个 被 处 理 的 元 素 ) 的 规则 。 这 些 规则 的 差异 是 API 的 重要 组 成 
部 分 ， 而 且 显然 对 用 例 代 码 的 开发 十 分 重要 。 
1.3.1.4 背包 

背包 是 一 种 不 支持 从 中 删除 元 素 的 集合 数据 类 型 一 一 它 的 
目的 就 是 帮助 用 例 收集 元 素 并 迭代 遍历 所 有 收集 到 的 元 素 ( 用 
例 也 可 以 检查 背包 是 否 为 空 或 者 获取 背包 中 元 素 的 数量 ) 。 和 迭 
代 的 顺序 不 确定 且 与 用 例 无 关 。 要 理解 背包 的 概念 ， 可 以 想象 
一 个 非常 喜欢 收集 弹子 球 的 人 。 他 将 所 有 的 弹子 球 都 放 在 一 个 
背包 里 ， 一 次 一 个 ， 并 且 会 不 时 在 所 有 的 弹子 球 中 寻找 某 一 颗 拥 
有 某 种 特点 的 弹子 球 。 使 用 Bag 的 API， 用 例 可 以 将 元 素 添加 进 
背包 并 根据 需要 随时 使 用 foreach 语句 访问 所 有 的 元 素 。 用 全 
也 可 以 使 用 栈 或 是 队列 ， 但 使 用 Bag 可 以 说 明 元 素 的 处 理 顺 序 
不 重要 。 下 面 代码 框 所 示 的 Stats 类 是 Bag 的 一 个 典型 用 例 。 


中 它 都 是 
语言 本 身 就 含有 特殊 的 机 制 来 支持 它 ) 。 有 了 它 ， 我 们 能 够 写 出 清晰 简洁 的 代码 上 且 


名 


一 个 装 有 
弹子 球 的 
入 


背包 


for (Marble m : 


j 场 景 ， 用 例 的 要 求 只 是 用 某 种 方式 处 理 集合 中 的 每 个 元 素 ， 或 者 叫做 选 代 访 问 集合 


级 语言 特性 


(不 只 是 库 ， 编 程 


[不 依赖 于 集合 类 型 的 


bag) 


处 理 任 意 弹 子 球 


m( 


1.3.1 


任意 顺序 ) 


背包 的 操作 ( 另 见 彩 插 ) 
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它 的 任务 是 简单 地 计算 标准 输入 中 的 所 有 double 值 的 平均 值 和 样本 标准 差 。 如 果 标 准 输入 中 及 
个 数字 ， 那 么 平均 值 为 它们 的 和 除 以 N， 样 本 标准 差 为 每 个 值 和 平均 值 之 差 的 平方 之 和 除 以 N-1 之 
后 的 平方 根 。 在 这 些 计 算 中 ， 数 的 计算 顺序 和 结果 无 关 ， 因 此 我 们 将 它们 保存 在 一 个 Bag 对 象 中 
并 使 用 foreach 语法 来 计算 每 个 和 。 注 意 : 不 需要 保存 所 有 的 数 也 可 以 计算 标准 差 ( 就 像 我 们 在 
Accumulator 中 计算 平均 值 那 样 一 一 请 见 练习 1.2.18 ) 。 用 Bag 对 象 保存 所 有 数字 是 更 复杂 的 统计 
计算 所 必需 的 。 

以 下 代码 框 列 出 的 是 常用 的 背包 用 例 。 


背包 的 典型 用 例 


publlcEcilasseEskatcs 
public static void main(String[] args) 


Bag<Double> numbers = new Bag<Doub1le>() ; 


while (!StdIn.isEmpty()) 
numbers.add(StdIn.readDouble(O)); 使 用 方法 
int N = numbers.size(); 


double sum = 0.0; % java Stats 


for (double x : numbers) 100 
sum += X; 99 
double mean = sum/N; 101 
0 
Sune O00 98 
for (double x : numbers) 107 
sum += (Xx - mean)*(x - mean); 109 
double std = Math.sqrt(sum/(N-1)); 81 
StdOut.printf("Mean: %.2f\n", mean); 101 
SedOwme prensaddev Nn 90 
L Mean: 100.60 
Std dev: 10.51 


1.3.1.5 “先进 先 出 队列 

先进 先 出 队列 (或 简称 队列 ) 是 一 种 基于 先进 先 出 (FIFO ) 策略 的 集合 类 型 ， 如 图 1.3.2 所 示 。 
按照 任务 产生 的 顺序 完成 它们 的 策略 我 们 每 天 都 会 遇 到 : 在 剧院 门 前 排队 的 人 们 、 在 收费 站 前 排队 
的 汽车 或 是 计算 机 上 某 种 软件 中 等 待 处 理 的 任务 。 任 何 服务 性 策略 的 基本 原则 都 是 公平 。 在 提 到 公 
平时 大 多 数 人 的 第 一 个 想法 就 是 应 该 优先 服务 等 待 最 久 的 人 ， 这 正 是 先进 先 出 策略 的 准则 。 队 列 是 
许多 日 常 现 象 的 自然 模型 ， 它 也 是 无 数 应 用 程序 的 核心 。 当 用 例 使 用 foreach 语句 迭代 访问 队列 中 
的 元 素 时 ， 元 素 的 处 理 顺序 就 是 它们 被 添加 到 队列 中 的 顺序 。 在 应 用 程序 中 使 用 队列 的 主要 原因 
是 在 用 集合 保存 元 素 的 同时 保存 它们 的 相对 顺序 : 使 它们 入 列 顺序 和 出 列 顺序 相同 。 例 如 ， 下 页 
的 用 例 是 我 们 的 In 类 的 静态 方法 readInts() 的 一 种 实现 。 这 个 方法 为 用 例 解决 的 问题 是 用 例 无 
需 预先 知道 文件 的 大 小 即 可 将 文件 中 的 所 有 整数 读 入 一 个 数组 中 。 我 们 首先 将 所 有 的 整数 读 入 队 
列 中 ， 然 后 使 用 Queue 的 size0) 方法 得 到 所 需 数组 的 大 小 ， 创 建 数 组 并 将 队列 中 的 所 有 整数 移 
动 到 数组 中 。 队 列 之 所 以 合适 是 因为 它 能 够 将 整数 按照 文件 中 的 顺序 放 入 数组 中 ( 如 果 该 顺序 并 
不 重要 ， 也 可 以 使 用 Bag 对 象 ) 。 这 段 代 码 使 用 了 自动 装 箱 和 拆 箱 来 转换 用 例 中 的 int 原始 数据 
类 型 和 队列 的 Integer 封装 类 型 。 
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1.3.1.6 ”下 压 栈 


\ 
图 1.3.2 一 个 典型 的 先进 先 出 队列 


下 压 栈 (或 简称 栈 ) 是 一 种 基于 后 进 先 出 


(LIFO ) 策略 的 集合 类 型 ， 如 


图 1.3.3 所 示 。 当 


你 的 邮件 在 桌 上 放 成 一 县 时 ,使 用 的 就 是 栈 。 新 


邮件 来 到 时 你 将 它们 放 在 最 上 国 


ij， 当 你 有 空 时 你 


会 一 封 一 封地 从 上 到 下 阅读 它 1 


门 。 现 在 人 们 应 付 


的 纸 质 品 比 以 前 少 得 多 ， 但 计算 机 上 的 许多 常用 
程序 遵循 相同 的 组 织 原 则 。 例 如 ， 许 多 人 仍然 用 


栈 的 方式 存放 电子 邮件 一 一 在 收 信 时 将 邮件 压 人 
( push ) 最 顶端 ， 在 取信 时 从 最 顶端 将 它们 弹出 
(pop ), 且 第 一 封 一 定 是 最 新 的 邮件 ( 后 进 , 先 出 )。 
这 种 策略 的 好 处 是 我 们 能 够 及 时 看 到 感 兴趣 的 邮 


件 ， 坏 处 是 如 果 你 不 把 栈 清空 


， 某 些 较 早 的 邮件 


可 能 永远 也 不 会 被 阅读 。 你 在 网 上 冲浪 时 很 可 能 


会 遇 到 栈 的 另 一 个 例子 。 点 击 


个 超 链 接 ， 浏 览 


会 显示 一 个 新 的 页 面 (并 将 它 压 人 一 个 栈 ) 。 


你 可 以 不 断 点 击 超 链 接 并 访 
以 通过 点 击 “ 回 退 ” 按钮 重新 访 


栈 中 弹出 ) 。 栈 的 后 进 先 出 策 


问 新 页 面 ， 但 总 是 可 


问 以 前 的 页 面 ( 从 
各 正好 能 够 提供 你 


所 需要 的 行为 。 当 用 例 使 用 foreach 语句 迭代 遍 


历 栈 中 的 元 素 时 ， 元 素 的 处 理 


贰 序 和 它们 被 压 和 人 


public static int[] readInts(CString 
name) 
In in = new In(name); 
Queue<Integer> q = new 
Queue<Integer>Q); 
while (C!in.isEmpty()) 
d.enqueue(in.readInt()); 


ine NE = oslze(0 

int[] a = new int[N]; 

人 font 0 NG 
a[i] = q.dequeueQO; 

return a; 


Queue 的 用 例 


一 摆 文 件 


新 到 的 文件 ( 灰 
push (- 合 区) A 一 色 ) 放 在 顶端 


新 到 的 文件 ( 黑 


和 色 ) 放 在 顶端 

从 顶端 取 走 

A = pop() A 黑色 的 文件 
从 顶端 取 走 

= popO) A 灰色 的 文件 


图 1.3.3 下 压 栈 的 操作 
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的 顺序 正好 相反 。 在 应 用 程序 中 使 用 栈 迭 代 咒 的 


public class Reverse 


一 个 典型 原因 是 在 用 集合 保存 元 素 的 同时 颠 个 它 1{ 
们 的 相对 顺序 。 例 如 ， 右 侧 的 用 例 Reverse 将 os BE es en el 
会 把 标准 输入 中 的 所 有 整数 逆序 排列 ， 同 样 它 也 Stack<Integer> stack; 
需 预 先知 道 整数 的 多 少 。 在 计算 机 领域 ， 栈 具 stack = new Stack<Integer>() ; 
ee a while (!StdIn.isEmpty()) 
有 基础 而 深远 的 影响 ， 下 一 节 我 们 会 仔细 研究 一 stack.push(StdIn.readInt()); 
个 例子 ， 以 说 明 栈 的 重要 性 。 Or acl 127 
1.3.1.7 算术 表达 式 求 值 Sido pr mem 
我 们 要 学 习 的 另 一 个 栈 用 例 同时 也 是 展示 泛 。 } ， 
型 的 应 用 的 一 个 经 典 例子 。 我 们 在 1.1 节 中 最 初 
学 习 的 几 个 程序 之 一 就 是 用 来 计算 算术 表达 式 的 Stack 的 用 例 


值 的 ， 例 如 : 

(i 7 

如 果 将 4 乘 以 5， 把 3 加 上 2， 取 它 们 的 积 然后 加 1， 就 得 到 了 101。 但 Java 系统 是 如 何 完成 
这 些 运算 的 呢 ? 不 需要 研究 Java 系统 的 构造 细节 , 我 们 也 可 以 编写 一 个 Java 程序 来 解决 这 个 问题 。 
它 接受 一 个 输入 字符 串 ( 表达 式 ) 并 输出 表达 式 的 值 。 为 了 简化 问题 ， 首 先 来 看 一 下 这 份 明确 的 递 
归 定 义 : 算术 表达 式 可 能 是 一 个 数 , 或 者 是 由 一 个 左 括号 、 一 个 算术 表达 式 、 一 个 运算 符 、 男 一 个 
算术 表达 式 和 一 个 右 括号 组 成 的 表达 式 。 简 单 起 见 ， 这 里 定义 的 是 未 省 略 括号 的 算术 表达 式 ， 它 明 
确 地 说 明了 所 有 运算 符 的 操作 数 一 一 你 可 能 更 熟悉 形 如 1 + 2 * 3 的 表达 式 ， 省 略 了 括号 ， 而 采 
用 优先 级 规则 。 我 们 将 要 学 习 的 简单 机 制 也 能 处 理 优先 级 规则 ， 但 在 这 里 我 们 不 想 把 问题 复杂 化 。 
为 了 突出 重点 ， 我 们 支持 最 常见 的 二 元 运算 符 *、+、- 和 /， 以 及 只 接受 一 个 参数 的 平方 根 运算 符 
sqrt。 我 们 也 可 以 轻易 支持 更 多 数量 和 种 类 的 运算 符 来 计算 多 种 大 家 熟悉 的 数学 表达 式 ， 包 括 三 角 
函数 、 指 数 和 对 数 函 数 。 我 们 的 重点 在 于 如 何 解 析 由 括号 、 运 算 符 和 数字 组 成 的 字符 串 ， 并 按照 正 
确 的 顺序 完成 各 种 初级 算术 运算 操作 。 如 何 才 能 够 得 到 一 个 ( 由 字符 串 表示 的 ) 算 术 表达 式 的 值 呢 ? 
E.W.Dijkstra 在 20 世纪 60 年 代 发 明了 一 个 非常 简单 的 算法 ， 用 两 个 栈 (一 个 用 于 保存 运算 符 ,， 一 
个 用 于 保存 操作 数 ) 完成 了 这 个 任务 ， 其 实现 过 程 见 下 页 ， 求 值 算法 的 轨迹 如 图 1.3.4 所 示 。 

表达 式 由 括号 、 运 算 符 和 操作 数 ( 数字 ) 组 成 。 我 们 根据 以 下 4 种 情况 从 左 到 右 逐 个 将 这 些 实 
体 送 入 栈 处 理 : 
口 将 操作 数 床 人 操作 数 栈 ; 
口 将 运算 符 压 人 运算 符 栈 ; 


口 忽略 左 括号 ; 
D 在 遇 到 右 括 号 时 ， 弹 出 一 个 运算 符 ， 弹 出 所 需 数量 的 操作 数 ， 并 将 运算 符 和 操作 数 的 运算 结 
果 压 人 操作 数 栈 。 


在 处 理 完 最 后 一 个 右 括号 之 后 ， 操 作 数 栈 上 只 会 有 一 个 值 ， 它 就 是 表达 式 的 值 。 这 种 方法 乍 一 


看 有 些 难以 理解 ， 但 要 证 明 它 能 够 计算 得 到 正确 的 值 很 简单 : 每 当 算法 遇 到 一 个 被 括号 包围 并 由 一 “1128 
个 运算 符 和 两 个 操作 数组 成 的 子 表达 式 时 ， 它 都 将 运算 符 和 操作 数 的 计算 结果 压 和 人 操作 数 栈 。 这 样 

的 结果 就 好 像 在 输入 中 用 这 个 值 代替 了 该 子 表 达 式 ， 因 此 用 这 个 值 代替 子 表达 式 得 到 的 结果 和 原 表 

达 式 相同 。 我 们 可 以 反复 应 用 这 个 规律 并 得 到 一 个 最 终 值 。 例 如 ， 用 该 算法 计算 以 下 表达 式 得 到 的 
结果 都 是 相同 的 : 


CT 
C1+(C5*(4*5 
(1+(5*20)) 
(1+ 100) 

101 

本 页 中 


Dijkstra 的 双 栈 算术 表达 式 求 值 算法 


的 Evaluate 类 是 该 算法 的 一 个 实现 。 这 
释 给 定 字符 串 所 表达 的 运算 并 计算 得 到 结果 的 程序 。 


段 代 码 是 一 个 简单 的 “解释 器 ”: 一 个 能 够 解 


public class Evaluate 


人 


public static void main(String[] args) 


{ 
Stack<String> 
Stack<Double> 
while (!StdIn. 
{ // 读 取 字符 ， 
String s = 
i 不 CS 
else if (s. 
else if (s. 
else if (s. 
else if (s. 
else if (s. 
else if (s. 


ops 


1 


new Stack<String>QO; 


vals = new Stack<Double>O; 


isEmpty()) 

如 果 是 运算 符 则 压 入 栈 
StdIn.readString() ; 
equals("(")) 
equals("+")) ops 
equals("-")) ops 
equals("*")) ops 
equals("/")) ops 
equals("sqrt")) ops 
equals(")")) 


.push(s); 
.push(s); 
.push(s); 
.push(s); 
.push(s); 


{ // 如 果 字 符 为 ")"， 弹 出 运算 符 和 操作 数 ， 计 算 结果 并 压 入 栈 
String op = ops.popO; 


double v 
if 

else if 
else if 
else if 
else if 
vals.pus 


= vals.popOQO; 
(op.equals("+")) 
(op.equals("-")) 
(op.equals("*")) 
(op.equals("/")) 
(op.equals("sqrt")) 
hCGv) ; 


V 
V 
V 
V 
V 


vals.pop() + Vi; 
vals.popQO - Vi 
vals.popQO) * v; 
vals.pop() / v; 
Math.sqrt(v); 


} // 如 果 字 符 既 非 运算 符 也 不 是 括号 ， 将 它 作为 double 值 压 入 栈 
else vals.push(Double.parseDouble(s)); 


} 


StdOut.printlin(vals.popO); 


} 
} 


这 段 Stack 的 用 例 使 用 


TH 


> 


目 隅 。 


% java Evaluate 


人 


OO 


% java Evaluate 


(GG Sqnc G0/ 20 


1.618033988749895 


了 两 个 栈 来 计算 表达 式 的 值 。 它 展示 了 一 种 重要 的 计算 模型 : 将 一 个 字符 
解释 为 一 段 程序 并 执行 该 程序 得 到 结果 。 有 了 泛 型 ,我 们 只 需 实现 Stack 一 次 即 可 使 


用 String 值 
的 栈 和 Double 值 的 栈 。 简 单 起 见 ， 这 段 代 码 假设 表达 式 没有 省 略 任 何 括 号 ， 数 字 和 字符 均 以 空 


上 1 for 


白字 符 
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号 , 匆 
,7 左 括 好: 忽略 
(1+((2+3)*(4*5))) 


af 己 - 操作 数 ， 压 入 操 作 数 栈 
数 栈 站 1+((2+3)*(4*5))) 
运算 符 : 压 入 运算 符 栈 
运算 p+((C2+3)*(4*5))) 
符 栈 ~ 地 
. ((2+3)*(4*5))) 
本 
(2+3)*(4*5))) 
+ 
过 尝 4A* 
ee +3)*(4*5))) 
生 
+3)*(4*5))) 
2 
直击 
3)*(4*5))) 
L253 右 括 号 : 弹出 运算 符 
i 4 和 操作 数 ， 压 入 结果 
JR 4 
15 
+ 
*(4*5))) 
15 
十 党 
(4*5))) 
+* 
4*5 
1 54 2 
污垢 
*5))) 
1 5 4 
二 要 . 允 
5))) 
1 545 
十 次 交 
))) 
1 520 
十 闪 
2 
1 100 
十 
) 
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1.3.2 ”集合 类 数据 类 型 的 实现 


1.3.4 ”Dijkstra 的 双 栈 算术 表达 式 求 值 算 法 的 轨迹 
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在 讨论 Bag、Stack 和 Queue 的 实现 之 前 ， 我 们 会 先 给 出 一 个 简单 而 经 典 的 实现 ， 然 后 讨论 它 
的 改进 并 得 到 表 1.3.1 中 的 API 的 所 有 实现 。 


作为 热身 ， 我 们 先 来 看 一 种 表示 容量 固定 的 字符 串 栈 的 抽象 数据 类 型 ， 如 表 1.3.2 所 示 。 它 的 


1.3.2.1 定 容 栈 
API 和 Stack 的 API 有 所 不 同 : 它 只 能 


处 至 


E string 值 ， 它 要 求 用 例 指定 一 个 容量 | 


日 不 支持 迭代 。 


实现 一 份 API 的 第 一 步 就 是 选择 数据 的 表示 方式 。 对 于 FixedCapacityStackOfStrings， 我 们 显 
然 可 以 选择 String 数组 。 由 此 我 们 可 以 得 到 表 1.3.2 中 底部 的 实现 ， 它 已 经 是 简单 得 不 能 再 简单 了 
(每 个 方法 都 具有 一 行 ) 。 它 的 实例 变量 为 一 个 用 于 保存 栈 中 的 元 素 的 数组 a[] ， 和 一 个 用 于 保存 
栈 中 的 元 素数 量 的 整数 N。 要 删除 一 个 元 素 ， 我 们 将 N 减 1 并 返回 a[N] 。 要 添加 一 个 元 素 ， 我 们 将 
a[N] 设 为 新 元 素 并 将 N 加 1。 这 些 操作 能 够 保证 以 下 性 质 : 


表 1.3.2 一 种 表示 定 容 字 符 串 栈 的 抽象 数据 类 型 
API public class FixedCapacityStackOfStrings 


FixedCapacityStackOfStrings(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(String item) 添加 一 个 字符 串 
String popO) 删除 最 近 添 加 的 字符 串 
boolean isEmpty(O) 栈 是 否 为 空 
int size() 栈 中 的 字符 串 数 量 
测试 用 例 public static void main(String[] args) 


FixedCapacityStackOfStrings s; 
s = new FixedCapacityStackOfStrings(100); 
while (!StdIn.isEmptyO)) 


上 
String item = StdIn.readStringQO; 
if (!item.equals("-")) 
s.push(item); 
elsemi ft Us NisEm eS tou ne oO 
} 


SedO0ue oemelm CG lzed nr elemtonnstack 


使 用 方法 % more tobe.txt 
to be or not to - be- - that - - - is 
% java FixedCapacityStackOfStrings < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStackOfStrings 
private String[] a; // stack entries 
private int N; // size 
public FixedCapacityStackOfStrings(int cap) 
{ a= new String[cap]; } 
public boolean isEmpty() { return N == 0; } 
public int size() { return N; } 
public void push(String item) 
{ a[lN++] = item; } 
publie stringlpop® 
{ return a[--N]; } 
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口 数组 中 的 元 素 顺 序 和 它们 被 插 ” 表 1.3.3 FixedCapacityStackOfStrings 的 测试 用 例 的 轨迹 
入 的 顺序 相同 ; Stdn Stdout AN a[] 
口 当 N 为 0 时 栈 为 空 ; (push) (pop) 0 1 2 3 4 
口 栈 的 顶部 位 于 a[N-1] ( 如 果 栈 
非 空 ) to 1 to 
es be 2 to be 
和 以 前 一 样 ， 用 恒等式 的 方式 思 or 3 to be Re 
考 这 些 条 件 是 检验 实现 正常 工作 的 最 not 4 to be or not 
简单 的 方式 。 请 你 务必 完全 理解 这 个 to 5 to be or not to 
实现 。 做 到 这 一 点 的 最 好 方法 是 检验 - x 
e 5 to be or not be 
一 系列 操作 中 栈 内 容 的 轨迹 , 如 表 1.3.3 _ Be 4 Ee 
所 示 。 测试 用 例会 从 标准 输入 读 取 多 和 not 3 to be or 
个 字符 串 并 将 它们 压 和 一 个 栈 ， 当 遇 that 4 to be or that 
到 一 时 它 会 将 栈 的 内 容 弹出 并 打印 结 。 a 
果 。 这 种 实现 的 主要 性 能 特点 是 push be 1 Eo 
和 pop 操作 所 需 的 时 间 独 立 于 栈 的 长 is 2 to is 


度 。 许 多 应 用 会 因为 这 种 简洁 性 而 选 
择 它 。 但 几 个 缺点 限制 了 它 作 为 通用 工具 的 潜力 ,我们 要 改进 的 也 是 这 一 点 。 经 过 一 些 修改 (以 及 


一 点 
Java 语言 机 制 的 一 些 帮 助 ) ， 我 们 就 能 给 出 一 个 适用 性 更 加 广泛 的 实现 。 这 些 努 力 是 值得 的 ， 因 为 ”1132 
这 个 实现 是 本 书 中 其 他 许多 更 强大 的 抽象 数据 类 型 的 模板 。 133 


1.3.2.2” 泛 型 

FixedCapacityStackOfStrings 的 第 一 个 缺点 是 它 只 能 处 理 String 对 象 。 如 果 需 要 一 
个 double 值 的 栈 ， 你 就 需要 用 类 似 的 代码 实现 另 一 个 类 ， 也 就 是 把 所 有 的 String 都 替换 为 
double。 这 还 算 简 单 ， 但 如 果 我 们 需要 Transaction 类 型 的 栈 或 者 Date 类 型 的 队列 等 ， 情 况 就 
很 杯 手 了 。 如 1.3.1.1 节 的 讨论 所 示 ，Java 的 参数 类 型 ( 泛 型 ) 就 是 专门 用 来 解决 这 个 问题 的 ， 而 且 
我 们 也 看 过 了 几 个 用 例 的 代码 (请 见 1.3.1.4 节 、1.3.1.5 节 、1.3.1.6 节 和 1.3.1.7 节 ) 。 但 如 何 才能 
实现 一 个 泛 型 的 栈 呢 ? 表 1.3.4 中 的 代码 展示 了 实现 的 细节 。 它 实现 了 一 个 FixedCapacityStack 
类 ， 该 类 和 FixedCapacityStackOfStrings 类 的 区 别 仅 在 于 加 粗 部 分 的 代码 一 一 我 们 把 所 有 的 
String 都 替换 为 Item (一 个 地 方 除外 ， 会 在 稍 后 讨论 ) 并 用 下 面 这 行 代码 声明 了 该 类 : 

public class FixedCapacityStack<Item> 

Item 是 一 个 类 型 参数 ， 用 于 表示 用 例 将 会 使 用 的 某 种 有 具体 类 型 的 象征 性 的 占 位 符 。 
可 以 将 FixedCapacityStack<Item> 理解 为 某 种 元 素 的 栈 ， 这 正 是 我 们 想 要 的 。 在 实现 
FixedCapacityStack 时 ， 我 们 并 不 知道 Item 的 实际 类 型 ， 但 用 例 只 要 能 在 创建 栈 时 提供 具体 的 
数据 类 型 ， 它 就 能 用 栈 处 理 任 意 数据 类 型 。 实 际 的 类 型 必须 是 引用 类 型 ， 但 用 例 可 以 依靠 自动 装 箱 
将 原始 数据 类 型 转换 为 相应 的 封装 类 型 。Java 会 使 用 类 型 参数 Item 来 检查 类 型 不 匹配 的 错误 一 一 
尽管 具体 的 数据 类 型 还 不 知道 ， 赋 予 Item 类 型 变量 的 值 也 必须 是 Item 类 型 的 ， 等 等 。 在 这 里 有 
一 个 细节 非常 重要 : 我 们 希望 用 以 下 代码 在 FixedCapacityStack 的 构造 函数 的 实现 中 创建 一 个 泛 
型 的 数组 : 


a = new Item[cap]; 


由 于 某 些 历史 和 技术 原因 ( 不 在 本 书 讲解 范围 之 内 ) ,创建 泛 型 数组 在 Java 中 是 不 允许 的 。 我 


134 


]135 


们 需要 使 用 类 型 转换 : 


a = (Item[]) new Object[cap]; 
这 段 代 码 才能 够 达到 我 们 所 期 望 的 效果 (但 Java 编译 器 会 给 出 一 条 和 警告， 不 过 可 以 忽略 它 ) ， 


我 们 在 本 书 中 会 一 直 使 用 这 种 方式 ( Java 系统 库 中 类 似 抽 象 数据 类 型 的 实现 中 也 使 用 了 相同 的 方式 )。 


表 1.3.4 一 种 表示 泛 型 定 容 栈 的 抽象 数据 类 型 


API public class FixedCapacityStack<Item> 


void 
Item 
boolean 


1nt 


FixedCapacityStack(int cap) 创建 一 个 容量 为 cap 的 空 栈 
push(Item item) 添加 一 个 元 素 

pop() 删除 最 近 添 加 的 元 素 
isEmpty() 栈 是 否 为 空 


i size() 栈 中 的 元 素数 量 


测试 用 例 


使 用 方法 


数据 类 型 的 实现 


public static void main(String[] args) 


由 
FixedCapacityStack<String> s; 
s = new FixedCapacityStack<String>(100); 
while (!StdIn.isEmptyQO) 
String item = StdIn.readStringQO); 
if (!item.equals("-")) 
s.push(item); 
else if (!s.isEmptyO) StdOut.print(s.pop() + " "); 
} 
StdOue primelmne GC sza 志 二 leeonEstackD 0 
} 


% more tobe.txt 

to be or not to - be - - that - - - is 
% java FixedCapacityStack < tobe.txt 
to be not that or be (2 left on stack) 


public class FixedCapacityStack<Item> 


private Item[] a; // stack entries 
private int N; // size 
public FixedCapacityStack(int cap) 
{ a= (Item[]) new Object[cap]; 了 
public boolean isEmpty() { return N == 0; 上 
public int sizeQO) { return N; } 
public void push(Item item) 
{ arN++] = item; } 
public Item pop() 
{ return a[--N]; } 

} 
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1.3.2.3 ”调整 数组 大 小 

选择 用 数组 表示 栈 内 容 意 味 着 用 例 必须 预先 估计 栈 的 最 大 容量 。 在 Java 中 ， 数 组 一 旦 创建 ， 
其 大 小 是 无 法 改变 的 ， 因 此 栈 使 用 的 空间 只 能 是 这 个 最 大 容量 的 一 部 分 。 选 择 大 容量 的 用 例 在 
栈 为 空 或 几乎 为 空 时 会 浪费 大 量 的 内 存 。 例 如 ， 一 个 交易 系统 可 能 会 涉及 数 十 亿 笔 交易 和 数 干 
个 交易 的 集合 。 即 使 这 种 系统 一 般 都 会 限制 每 笔 交 易 只 能 出 现在 一 个 集合 中 ,但 用 例 必须 保证 
所 有 集合 都 有 能 力 保存 所 有 的 交易 。 另 一 方面 ,如果 集 合 变 得 比 数组 更 大 那么 用 例 有 可 能 溢出 。 
为 此 ，push 0) 方法 需要 在 代码 中 检测 栈 是 否 已 满 ， 我 们 的 API 中 也 应 该 含有 一 个 isFu110D 方 
法 来 允许 用 例 检 测 栈 是 否 已 满 。 我 们 在 此 省 略 了 它 的 实现 代码 ， 因 为 我 们 和 希望 用 例 从 处 理 栈 已 
满 的 问题 中 解脱 出 来 ， 如 我 们 的 原始 Stack API 所 示 。 因 此 ， 我 们 修改 了 数组 的 实现 ， 动 态 调 
整数 组 a[] 的 大 小 ， 使 得 它 既 足以 保存 所 有 元 素 ， 又 不 至 于 浪费 过 多 的 空间 。 实 际 上 ， 完 成 这 
些 目标 非常 简单 。 首 先 ， 实 现 一 个 方法 将 栈 移动 到 另 一 个 大 小 不 同 的 数组 中 : 

private void resize(int max) 


{ // 将 大 小 为 N < = max 的 栈 移动 到 一 个 新 的 大 小 为 max 的 数组 中 
Item[] temp = (Item[]) new Object[max]; 


for (int i = 0; i < N; i++) 
temp[i] = al[li]; 
a = temp; 


} 
现在 ,在 push() 中 ,检查 数组 是 否 太 小 。 具 体 来 说 ， 我 们 会 通过 检查 栈 大 小 N 和 数组 大 小 
a.1ength 是 否 相等 来 检查 数组 是 否 能 够 容纳 新 的 元 素 。 如 果 没 有 多 余 的 空间 ， 我 们 会 将 数组 的 
长 度 加 倍 。 然 后 就 可 以 和 从 前 一 样 用 a[Nt+] = item 插入 新 元 素 了 : 
public void push(Item item) 
{ // 将 元 素 压 入 栈 顶 
if (CN == a.length) resize(2*a.length); 
a[N++] = item; 


3 
类 似 , 在 popQ 〇 中 ， 首 先 删 除 栈 顶 的 元 素 ， 然 后 如 果 数 组 太 大 我 们 就 将 它 的 长 度 减 半 。 只 
要 稍 加 思考 ， 你 就 明白 正确 的 检测 条 件 是 栈 大 小 是 否 小 于 数组 的 四 分 之 一 。 在 数组 长 度 被 减 半 
之 后 ， 它 的 状态 约 为 半 满 ， 在 下 次 需要 改变 数组 大 小 之 前 仍然 能 够 进行 多 次 pushQ 和 pop 0O) 
操作 。 136 
public Item popO 
{ // 从 栈 顶 删除 元 素 
Item item = a[--N]; 
a[N] = null; // 避免 对 象 游离 (请 见 下 节 ) 
if (CN > 0 && N == a.length/4) resize(a.length/2); 
return item; 


} 

在 这 个 实现 中 ， 栈 永远 不 会 洪 出 ,使 用 率 也 永远 不 会 低 于 四 分 之 一 ( 除非 栈 为 空 ， 那 种 情 
况 下 数组 的 大 小 为 1 ) 。 我 们 会 在 1.4 节 中 详细 分 析 这 种 实现 方法 的 性 能 特点 。 

push() 和 popQ 〇 操作 中 数组 大 小 调整 的 轨迹 见 表 1.3.5。 
1.3.2.4 ”对 象 游离 

Java 的 垃圾 收集 策略 是 回收 所 有 无 法 被 访问 的 对 象 的 内 存 。 在 我 们 对 popQ 〇 的 实现 中 ， 被 
弹出 的 元 素 的 引用 仍然 存在 于 数组 中 。 这 个 元 素 实际 上 已 经 是 一 个 孤儿 了 一 一 它 永 远 也 不 会 再 
被 访问 了 ， 但 Java 的 垃圾 收集 右 没 法 知道 这 一 点 ， 除 非 该 引用 被 覆盖 。 即 使 用 例 已 经 不 再 需要 
这 个 元 素 了 ， 数 组 中 的 引用 仍然 可 以 让 它 继续 存在 。 这 种 情况 〈 保存 一 个 不 需要 的 对 象 的 引用 ) 
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称 为 游离 。 在 这 里 ， 避 免 对 象 游离 很 容易 ， 只 需 将 被 弹出 的 数组 元 素 的 值 设 为 nu11 即 可 ， 这 将 覆 
盖 无 用 的 引用 并 使 系统 可 以 在 用 例 使 用 完 被 弹出 的 元 素 后 回收 它 的 内 存 。 


表 1.3.5 一 系列 push(C) 和 pop() 操作 中 数组 大 小 调整 的 轨迹 


a[] 
pushO popO N a.length 6 了 5 3 2 E ; 
0 J null 
to 让 to 
be 2 2 be 
or 3 4 or null 
not 4 not 
to 5 8 to null null null 
一 to 4 null 
be 5 be 
- be 4 null 
- not 3 null 
that 4 that 
- that 3 null 
- or 2 4 null null 
- be 1 这 null 
137 is 2 is 
1.3.2.5 和 迭代 


本 节 开 头 已 经 提 过 ， 集 合 类 数据 类 型 的 基本 操作 之 一 就 是 ， 能 够 使 用 Java 的 foreach 语句 通 
过 和 迭代 遍历 并 处 理 集合 中 的 每 个 元 素 。 这 种 方式 的 代码 既 清晰 又 简洁 ， 且 不 依赖 于 集合 数据 类 型 的 
具体 实现 。 在 讨论 迭代 的 实现 之 前 ， 我 们 先 看 一 段 能 够 打印 出 一 个 字符 串 集合 中 的 所 有 元 素 的 用 例 
代码 : 


Stack<String> collection = new Stack<9String>() ; 


for (人 String s : collection) 
StdOut.println(s); 


这 里 ，foreach 语句 只 是 while 语句 的 一 种 简写 方式 ( 就 好 像 for 语句 一 样 ) 。 它 本 质 上 和 
以 下 while 语句 是 等 价 的 : 
Iterator<String> i = collection.iterator(); 
while (i.hasNext()) 
; String s = i.next(); 
StdOut.println(s); 
} 
这 段 代 码 展示 了 一 些 在 任意 可 迭代 的 集合 数据 类 型 中 我 们 都 需要 实现 的 东西 : 
口 集合 数据 类 型 必须 实现 一 个 iterator() 方法 并 返回 一 个 Iterator 对 象 ; 
口 Iterator 类 必须 包含 两 个 方法 : hasNext() (返回 一 个 布尔 值 ) 和 next() (返回 集合 中 的 
一 个 泛 型 元 素 ) 。 
在 Java 中 ， 我 们 使 用 接口 机 制 来 指定 一 个 类 所 必须 实现 的 方法 〈 请 见 1.2.5.4 节 ) 。 对 于 可 迭 
代 的 集合 数据 类 型 ，Java 已 经 为 我 们 定义 了 所 需 的 接口 。 要 使 一 个 类 可 迭代 ， 第 一 步 就 是 在 它 的 声 
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明 中 加 入 implements Iterable<Item>， 对 应 的 接口 ( 即 java.lang.Iterable ) 为 : 


public interface Iterable<Item> 


{ 


Iterator<Item> iterator() ; 


} 

然后 在 类 中 添加 一 个 方法 iterator(Q) 并 返回 一 个 授 代 器 Iterator<Item>。 迭 代 器 都 
是 泛 型 的 ， 因 此 我 们 可 以 使 用 参数 类 型 Item 来 帮助 用 例 遍 历 它们 指定 的 任意 类 型 的 对 象 。 
对 于 一 直 使 用 的 数组 表示 法 ,我 们 需要 逆序 迭代 遍历 这 个 数组 ， 因 此 我 们 将 迭代 器 命名 为 
ReverseArrayIterator， 并 添加 了 以 下 方法 : 


public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); } 


过 代 器 是 什么 ? 它 是 一 个 实现 了 hasNext() 和 next0 方法 的 类 的 对 象 ， 由 以 下 接口 所 定 
义 (B 妈 java.util.Iterator ) : 


public interface Iterator<Item> 


{ 


boolean hasNext() ; 
Item next() ; 
void remove() ; 


} 

尽管 接口 指定 了 一 个 remove0 方法 ,但 在 本 书 中 remove 0) i 因为 我 们 希望 避 
免 在 迭代 中 穿插 能 够 修改 数据 结构 的 操作 。 对 于 ReverseArrayIterator， 这 些 方法 都 只 需要 
一 行 代码 ， 它 们 实现 在 栈 类 的 一 个 山 套 类 中 : 


private class ReverseArrayIterator implements Iterator<Item> 


{ 
private int 1 = N; 
public boolean hasNext() { return i > 0; } 
public Item next() { return a[--i]; } 
public void remove() { } 
} 


请 注意 ， 概 套 类 可 以 访问 包含 它 的 类 的 实例 变量 ， 在 这 里 就 是 a[] 和 N (这 也 是 我 们 使 用 髓 
套 类 实现 迭代 器 的 主要 原因 ) 。 从 技术 角度 来 说 ， 为 了 和 Iterator 的 结构 保持 一 致 ， 我 们 应 该 
在 两 种 情况 下 抛 出 异常 : 如 果 用 例 调 用 了 removeQ 则 抛 出 UnsupportedoperationException， 
如 果 用 例 在 调用 nextG) 时 :为 0 则 抛 出 NoSuchElementException 。 因 为 我 们 只 会 在 foreach 
语法 中 使 用 迭代 器 ， 这 些 情 况 都 不 会 出 现 ， 所 以 我 们 省 略 了 这 部 分 代码 。 还 剩 下 一 个 非常 重要 的 
细节 ， 我 们 需要 在 程序 的 开头 加 上 下 面 这 条 语句 : 


import java.util.Iterator; 


因为 ( 某 些 历史 原因 ) Iterator 不 在 java.lang 中 (尽管 Iterable 是 java.lang 的 一 部 分 ) 。 
现在 ,使 用 foreach 人 处理 该 类 的 用 例 能 够 得 到 的 行为 和 使 用 普通 的 for 循环 访问 数组 一 样 ， 但 
它 无 须知 道 数据 的 表示 方法 是 数组 ( 即 实现 细节 ) 。 对 于 我 们 在 本 书 中 学 习 的 和 Java 库 中 所 包 
含 的 所 有 类 似 于 集合 的 基础 数据 类 型 的 实现 ， 这 一 点 非常 重要 。 例 如 ， 我 们 无 需 改 变 任 何 用 例 
代码 就 可 以 随意 切换 不 同 的 表示 方法 。 更 重要 的 是 ， 从 用 例 的 角度 来 来 说 ， 无 需 知晓 类 的 实现 
细节 用 例 也 能 使 用 迭代 。 

算法 1.1 是 Stack API 的 一 种 能 够 动态 改变 数组 大 小 的 实现 。 用 例 能 够 创建 任意 类 型 数据 
的 栈 ， 并 支持 用 例 用 foreach 语句 按照 后 进 先 出 的 顺序 迭代 访问 所 有 栈 元 素 。 这 个 实现 的 基础 


| 


工 3 
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是 Java 的 语言 特性 ， 包 括 Iterable 和 Iterator， 但 我 们 没有 必要 深究 这 些 特性 的 细节 ， 因 为 代 
码 本 身 并 不 复杂 ， 并 且 可 以 用 做 其 他 集合 数据 类 型 的 实现 的 模板 。 


网 如， 我 们 在 实现 Queue 的 API 时 ， 可 以 使 用 两 个 实例 变量 作为 索引 ， 一 个 变量 head 指向 队 


列 的 开头 ， 一 个 变量 tail 指向 队列 的 结尾 ， 如 表 1.3.6 所 示 。 在 删除 一 个 元 素 时 ， 使 用 head 访问 


它 并 将 head 1; 在 搬入 一 个 元 素 时 ， 使 用 tail 保存 它 并 将 tail 加 1。 如 果 某 个 索引 在 增加 之 


后 越过 了 数组 的 边界 则 将 它 重 置 为 0。 实现 检查 队列 是 否 为 空 、 是 否 充满 并 需要 调整 数组 大 小 的 细 


节 是 一 项 有 趣 而 又 实用 的 编程 练习 《〈 请 见 练习 1.3.14 ) 。 


表 1.3.6 ”ResizingArrayQueue 的 测试 用 例 的 轨迹 


Stdln StdOut a[] 
N head tail 
(入 列 ) (出 列 ) 0 1 2 3 4 5 6 7 
5 0 5 to be dF not to 
- to 4 1 5 be or not to 
be 5 1 6 be or not to be 
- be 4 2 6 (eg not to be 
= or 3 3 6 not to be 


在 算法 的 学 习 中 ,算法 1.1 十 分 重要 ， 因 为 它 几乎 〈 但 还 没有 ) 达到 了 任意 集合 类 数据 类 型 的 
实现 的 最 佳 性 能 


口 


ee 的 用 时 都 与 集合 大 小 无 关 ; 
空间 需求 总 是 不 超过 集合 大 小 乘 以 一 个 常数 。 


es 和 pop() 操作 会 调整 数组 的 大 小 : 这 项 操作 的 
耗 时 和 栈 大 小 成 正比 。 下 面 ， 我 们 将 学 习 一 种 克服 该 缺陷 的 方法 ， 使 用 一 种 完全 不 同 的 方式 来 组 织 


数据 。 


算法 1.1 下 压 〈LIFO) 栈 〈 能 够 动态 调整 数组 大 小 的 实现 ) 


import java.util.Iterator; 
public class ResizingArrayStack<Item> implements Iterable<Item> 


€ 


private Item[] a = (Item[]) new 0bject[1]; // 栈 元 素 


private int N = 0; // 元 素数 量 
public boolean isEmpty() { return N == 0; } 
public int size() { return N; } 


private void resize(int max) 
{ // 将 栈 移 动 到 一 个 大 小 为 max 的 新 数组 
Item[] temp = (Item[]) new Object[max] ; 
for (Cint 1 = 0; i < Ni i++) 
temp[i] = a[i]; 
a = temp; 
} 
public void push(Item item) 
{ // 将 元 素 添加 到 栈 顶 
if (CN == a.length) resize(2*a.length); 
a[N++] = item; 
} 
public Item pop() 
{ // 从 栈 顶 删除 元 素 
Item item = a[--N]; 
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a[N] = nul1; // 避免 对 象 游离 (请 见 1.3.2.4 节 ) 
if (CN > 0 && N == a.length/4) resize(a.length/2); 
return item; 
} 
public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); 了 
private class ReverseArrayIterator implements Iterator<Item> 
{ // 支持 后 进 先 出 的 迭代 
private int i = N; 


public boolean hasNext() { return i > 0; } 
public Item next() { return a[--i]; } 
public void remove() { } 
} 
} 
这 份 泛 型 的 可 迭代 的 Stack API 的 实现 是 所 有 集合 类 抽象 数据 类 型 实现 的 模板 。 它 将 所 有 元 素 
保存 在 数组 中 ， 并 动态 调整 数组 的 大 小 以 保持 数组 大 小 和 栈 大 小 之 比 小 于 一 个 常数 。 141 
1.3.3 ”链表 


现在 我 们 来 学 习 一 种 基础 数据 结构 的 使 用 ， 它 是 在 集合 类 的 抽象 数据 类 型 实现 中 表示 数据 
的 合适 选择 。 这 是 我 们 构造 非 Java 直接 支持 的 数据 结构 的 第 一 个 例子 。 我 们 的 实现 将 成 为 本 书 
中 其 他 更 加 复杂 的 数据 结构 的 构造 代码 的 模板 。 所 以 请 仔细 阅读 本 节 ， 即 使 你 已 经 使 用 过 链表 。 


定义 ,链表 是 一 种 递归 的 数据 结构 , 它 或 者 为 空 ( nu11 ), 或 者 是 指向 一 个 结 点 (node ) 的 引用 ， 
该 结 点 含有 一 个 泛 型 的 元 素 和 一 个 指向 另 一 条 链表 的 引用 。 


在 这 个 定义 中 ， 结 点 是 一 个 可 能 含有 任意 类 型 数据 的 抽象 实体 ， 它 所 包含 的 指向 结 点 的 应 
用 显示 了 它 在 构造 链表 之 中 的 作用 。 和 递归 程序 一 样 , 递归 数据 结构 的 概念 一 开始 也 令 人 费解 ， 
但 其 实 它 的 简洁 性 赋予 了 它 巨 大 的 价值 。 
1.3.3.1 结 点 记录 

在 面向 对 象 编程 中 ,实现 链表 并 不 困难 。 我 们 首先 用 一 个 谋 套 类 来 定义 结 点 的 抽象 数据 类 型 : 

private class Node 

Item item; 


Node next; 


} 

一 个 Node 对 象 含有 两 个 实例 变量 ， 类 型 分 别 为 Item ( 参数 类 型 ) 和 Node。 我 们 会 在 需要 
使 用 Node 类 的 类 中 定义 它 并 将 它 标 记 为 private， 因 为 它 不 是 为 用 例 准备 的 。 和 任意 数据 类 型 
一 样 ， 我 们 通过 new Node() 触发 (无 参数 的 ) 构造 函数 来 创建 一 个 Node 类 型 的 对 象 。 调 用 的 
结果 是 一 个 指向 Node 对 象 的 引用 ， 它 的 实例 变量 均 被 初始 化 为 nu11。Item 是 一 个 占 位 符 ， 表 
示 我 们 希望 用 链表 处 理 的 任意 数据 类 型 (我们 将 会 使 用 Java 的 泛 型 使 之 表示 任意 引用 类 型 ) ; 
Node 类 型 的 实例 变量 显示 了 这 种 数据 结构 的 链 式 本 质 。 为 了 强调 我 们 在 组 织 数据 时 只 使 用 了 
Node 类 ， 我 们 没有 定义 任何 方法 且 会 在 代码 中 直接 引用 实例 变量 如 果 fi rst 是 一 个 指向 某 个 
Node 对 象 的 变量 ， 我 们 可 以 使 用 first.item 和 first.next 访问 它 的 实例 变量 。 这 种 类 型 的 
类 有 时 也 被 称 为 记录 。 它 们 实现 的 不 是 抽象 数据 类 型 ， 因 为 我 们 会 直接 使 用 其 实例 变量 。 但 是 
在 我 们 的 实现 中 ，Node 和 它 的 用 例 代 码 都 会 被 封装 在 相同 的 类 中 且 无 法 被 该 类 的 用 例 访问 ， 所 
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以 我 们 仍然 能 够 享受 数据 抽象 的 好 处 。 
1.3.3.2 ”构造 链表 
现在 ,根据 递归 定义 ,我 们 只 需要 一 个 Node 


类 型 的 变量 就 能 表示 一 条 链表 ， 只 要 保证 它 的 值 


是 nul11 或 者 指向 男 一 个 Node 对 象 且 该 对 象 的 next 域 指 向 了 男 一 条 链表 即 可 。 例 如 ， 要 构造 一 条 
含有 元 素 to、be 和 or 的 链表 ， 我 们 首先 为 每 个 元 素 创造 一 个 结 点 : 


Node first = new NodeQO; 
Node second = new NodeQO; 
Node third = new Node(); 
并 将 每 个 结 点 的 item 域 设 为 所 需 的 值 ( 简单 起 见 
first.item = "to"; 
second.item = "be"; 
third.item = "or"; 


然后 设置 next 域 来 构造 链表 : 
first.next = 
second.next = 


second; 
thirds 


(注意 : third.next 仍然 是 nul1， 即 对 
象 创建 时 它 被 初始 化 的 值 。) 结果 是 ，third 是 
条 链表 ( 它 是 一 个 结 点 的 引用 ， 该 结 点 指向 
nul1， 即 一 个 空 链 表 ) ，second 也 是 一 条 链表 
〈 它 是 一 个 结 点 的 引用 ， 且 该 结 点 含有 一 个 指向 
third 的 引用 ， 而 third 是 一 条 链表 ) ，first 
也 是 一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 且 该 结 点 
含有 一 个 指向 second 的 引用 ， 而 second 是 一 
条 链表 ) 。 图 1.3.5 所 示 的 代码 以 不 同 的 顺序 完 
成 了 这 些 赋值 语句 。 
链表 表示 的 是 一 列 元 素 。 在 我 们 刚刚 考察 过 
的 例子 中 ，first 表示 的 序列 是 to、be、or。 我 
们 也 可 以 用 一 个 数组 来 表示 一 列 元 素 。 例 如 ， 可 
以 用 以 下 数组 表示 同一 列 字 符 串 : 


"be", 


String[l] § 4 "to", 
不 同 之 处 在 于 ， 在 链表 中 向 序列 插入 元 素 或 是 从 
序列 中 删除 元 素 都 更 方便 。 下 面 ， 我 们 来 学 习 完 
成 这 些 任 务 的 代码 。 


"or" }; 


口 用 长 方形 表示 对 象 ; 
口 将 实例 变量 的 值 写 在 长 方形 中 ; 
口 用 指向 被 引用 对 象 的 箭头 表示 引用 关系 。 


在 追踪 使 用 链表 和 其 他 链 式 结构 的 代码 时 ， 我 们 会 使 


， 我 们 假设 在 这 些 例子 中 Item 为 String ) : 


Node first = new Node() ; 
first.item = "to"; 
first 
[| 
Node second = new Node(C) ; 
second .item = "be"; 
first.next = second; 
first second 
Er 
HE gl Lm 
[naTT | 
Node third = new Node() ; 
third.item = "or" 
second.next = third 
first second 
third 
to 
2 pe Ns 
or | 
图 1.3.5 ”用 链接 构造 一 条 链表 


可视化 表示 方法 : 


这 种 表示 方式 抓 住 了 链表 的 关键 特性 。 方 便 起 见 ， 我 们 用 术语 链接 表示 对 结 点 的 引用 。 简 单 起 


见 ， 当 元 素 的 值 为 字符 串 时 ( 如 我 们 的 例子 所 示 ) 


， 我 们 会 将 字符 串 写 在 长 方形 之 内 ， 而 非 使 用 1.2 


节 中 所 讨论 的 更 准确 的 方式 表示 字符 串 对 象 和 字符 数组 。 这 种 可 视 化 的 表示 方式 使 我 们 能 够 将 注意 


力 集中 在 链表 上 。 
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1.3.3.3 ”在 表 头 插入 结 点 
首先 ,假设 你 希望 向 一 条 链表 中 搬入 一 个 新 的 结 点 。 最 容易 做 到 这 一 点 的 地 方 就 是 链表 的 开头 。 


例如 ， 要 在 首 结 点 为 fi rst 的 给 定 链表 开头 插入 字符 串 not， 我 们 先 将 fi rst 保存 在 o1dfi rst 中 ， 
然后 将 一 个 新 结 点 赋予 fi rst， 并 将 它 的 item 域 设 为 not，next 域 设 为 o1dfirst。 以 上 过 程 如 


图 1.3.6 所 示 。 这 段 在 链表 开头 搬入 一 个 结 点 的 代码 只 需要 几 行 赋值 语句 ， 所 以 它 所 需 的 时 间 和 链 
表 的 长 度 无 关 。 
1.3.3.4 ”从 表 头 删除 结 点 

接 下 来 ， 假 设 你 希望 删除 一 条 链表 的 首 结 点 。 这 个 操作 更 简单 : 只 需 将 first 指向 fi rst. 
next 即 可 。 一 般 来 说 你 可 能 会 希望 在 赋值 之 前 得 到 该 元 素 的 值 ， 因 为 一 旦 改变 了 first 的 值 ， 就 
再 也 无 法 访问 它 曾经 指向 的 结 点 了 。 曾 经 的 结 点 对 象 变 成 了 一 个 孤儿 ，Java 的 内 存 管理 系统 最 终 将 
回收 它 所 占用 的 内 存 。 和 以 前 一 样 ， 这 个 操作 只 含有 一 条 赋值 语句 ， 因 此 它 的 运行 时 间 和 链表 的 长 


度 无 关 。 此 过 程 如 图 1.3.7 所 示 。 
保存 指向 链表 的 链接 


Node oldfirst = first; 
oldfirst 


fi "st 
FE 


创建 新 的 首 结 点 


first = new Node() ; 


U0 Fst 
一 一 一 人 or | 
first = first.next; 


设置 新 结 点 中 的 实例 变量 


first—>[| to | 
first.item = "not" = 一 


3 
first.next = oldfirst; 


fi “EA Ti fi rst— en | 

a 
| or | 庆 寺 一 上 
ES 一 一 


图 1.3.6 在 链表 的 开头 插入 一 个 新 结 点 图 1.3.7 ”删除 链表 的 首 结 点 


1.3.3.5 在 表 尾 插入 结 点 

如 何 才能 在 链表 的 尾部 添加 一 个 新 结 点 ”要 完成 这 个 任务 ， 我 们 需要 一 个 指向 链表 最 后 一 个 结 
点 的 链接 ， 因 为 该 结 点 的 链接 必须 被 修改 并 指向 一 个 含有 新 元 素 的 新 结 点 。 我 们 不 能 在 链表 代码 
中 草率 地 决定 维护 一 个 额外 的 链接 ， 因 为 每 个 修改 链表 的 操作 都 需要 添加 检查 是 否 要 修改 该 变量 
(以 及 作出 相应 修改 ) 的 代码 。 例 如 ， 我 们 刚刚 讨论 过 的 删除 链表 首 结 点 的 代码 就 可 能 改变 指向 
链表 的 尾 结 点 的 引用 ， 因 为 当 链表 中 只 有 一 个 结 点 时 ， 它 既是 首 结 点 又 是 尾 结 点 ! 另外 ， 这 段 代 
码 也 无 法 处 理 链表 为 空 的 情况 ( 它 会 使 用 空 链接 )。 类 似 这 些 情况 的 细节 使 链表 代码 特别 难以 调试 。 
在 链表 结尾 插入 新 结 点 的 过 程 如 图 1.3.8 所 示 。 
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1.3.3.6 ”其 他 位 置 的 插入 和 删除 操作 保存 指向 尾 结 点 的 链接 
总 的 来 说 ， 我 们 已 经 展示 了 在 链表 中 Node oldlast = last; 
如 何 通过 若干 指令 实现 以 下 操作 ， 其 中 我 Ws 
们 可 以 通过 first 链接 访问 链表 的 首 结 点 ed ~ 
并 通过 1ast 链接 访问 链表 的 尾 结 点 : = 


口 在 表 头 插入 结 点 ; 
口 从 表 头 删除 结 点 ; 创建 新 的 尾 结 点 
D 在 表 尼 请 入 结 点 ee 
其 他 操作 ， 例 如 以 下 几 种 ， 就 不 那么 oldlast a 
容易 实现 了 : “Es \ 
口 删除 指定 的 结 点 ; 
口 在 指定 结 点 前 插入 一 个 新 结 点 。 
例如 ， 我 们 怎样 才能 删除 链表 的 尾 NE 
结 点 呢 ? 1ast 链接 帮 不 上 忙 ， 因 为 我 们 oldlast a 
需要 将 链表 尾 结 点 的 前 一 个 结 点 中 的 链接 first 一 \ 
( 它 指向 的 正 是 1ast ) 值 改 为 nu11。 在 CT 


缺少 其 他 信息 的 情况 下 ， 唯 一 的 解决 办 法 
就 是 遍历 整 条 链表 并 找 出 指向 1ast 的 结 图 1.3.8 ”在 链表 的 结尾 插入 一 个 新 结 点 
点 (请 见 下 文 以 及 练习 1.3.19 ) 。 这 种 解 
决 方案 并 不 是 我 们 想 要 的 ， 因 为 它 所 需 的 时 间 和 和 链表 的 长 度 成 正比 。 实 现任 意 插 入 和 删除 操作 的 标 
准 解决 方案 是 使 用 双向 链表 ， 其 中 每 个 结 点 都 含有 两 个 链接 ， 分 别 指向 不 同 的 方向 。 我 们 将 实现 这 
些 操作 的 代码 留 做 练习 〈 请 见 练习 1.3.31 ) 。 我 们 的 所 有 实现 都 不 需要 双向 链表 。 
1.3.3.7 ”遍历 

要 访问 一 个 数组 中 的 所 有 元 素 ， 我 们 会 使 用 如 下 代码 来 循环 处 理 a[] 中 的 所 有 元 素 : 


for (Cint i = 0; i < N; i++) 


// 处 理 a[i] 
} 
访问 链表 中 的 所 有 元 素 也 有 一 个 对 应 的 方式 : 将 循环 的 索引 变量 x 初始 化 为 链表 的 首 结 点 ， 然 
后 通过 x.item 访问 和 x 相关 联 的 元 素 ， 并 将 x 设 为 x.next 来 访问 链表 中 的 下 一 个 结 点 ， 如 此 反 
复 直到 x 为 nul1 为 止 (这 说 明 我 们 已 经 到 达 了 链表 的 结尾 ) 。 这 个 过 程 被 称 为 链表 的 遍历 ， 可 以 
用 以 下 循环 处 理 链表 的 每 个 结 点 的 代码 简洁 表达 ， 其 中 fi rst 指向 链表 的 首 结 点 : 


for (Node x = first; x != null; x = x.next) 


// 处 理 X.item 
} 
这 种 方式 和 迭代 遍历 一 个 数组 中 的 所 有 元 素 的 标准 方式 一 样 自然 。 在 我 们 的 实现 中 ， 它 是 迭代 
器 使 用 的 基本 方式 ， 它 使 用 例 能 够 迭代 访问 链表 的 所 有 元 素 而 无 需 知道 链表 的 实现 细节 。 
1.3.3.8 ” 栈 的 实现 
有 了 这 些 预备 知识 ， 给 出 我 们 的 Stack API 的 实现 就 很 简单 了 ， 如 94 页 的 算法 1.2 所 示 。 它 将 
栈 保存 为 一 条 链表 ， 栈 的 顶部 即 为 表 头 ， 实 例 变量 fi rst 指向 栈 顶 。 这 样 ， 当 使 用 push() 压 入 一 


个 元 素 时 ， 我 们 会 按照 1.3.3.3 节 所 讨论 的 代码 将 该 元 素 添加 在 表 头 ; 当 使 
时 ， 我 们 会 按照 1.3.3.4 节 讨 论 的 代码 将 该 元 素 从 表 头 删除 。 要 实现 size() 方法 ， 我 们 用 实例 变量 


1.3 


j popQ 删除 一 个 元 素 


N 保存 元 素 的 个 数 ， 在 压 人 元 素 时 将 N 加 1， 在 弹出 元 素 时 将 N 减 1。 要 实现 isEmpty() 方法 ， 只 


需 检 查 first 是 否 为 nul11 (或 者 可 以 检查 N 是 否 为 0) 。 该 实现 使 


了 泛 型 的 Item 一 一 你 可 以 认 


为 类 名 后 的 <Item> 表示 的 是 实现 中 所 出 现 的 所 有 Item 都 会 蔡 换 为 用 例 所 提供 的 任意 数据 类 型 的 


名 称 ( 请 见 1.3.2.2 节 ) 。 我 们 暂时 省 略 了 关于 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 


显示 了 我 们 所 常用 的 测试 
优 设计 目标 : 


StdIn 


to 


be 


or 


be 


that 


I 


] 例 的 轨迹 〔 测试 用 例 代码 放 在 了 图 


口 它 可 以 处 理 任意 类 型 的 数据 ; 
口 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ; 
口 操作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 


图 1.3.9 
后 面 ) 。 链 表 的 使 用 达到 了 我 们 的 最 


StdOut 
to 
null 
加 -后 
or 
一 国 - 古 
null 
| ,| or b 
各- 国 -- 国 
1 
加 -国友 
null 
本 = [| 
| 
1 
be 
上 一 所 
[和 本 一 上 洁 一 乒 
null 
则 二 [| 
9 一 国 -Ee 
1 
9 -国生 
null 
that Or 
虹 y 
null 
-| 
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1.3.9 ”stack 的 开发 用 例 的 轨迹 
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public static void main(String[] args) 
{ // 创建 一 个 栈 并 根据 StdIn 中 的 指示 压 入 或 弹出 字符 事 


Stack<String> s = new Stack<String>() ; 
while (!StdIn.isEmptyQO) 
{ 
String item = StdIn.readString() ; 
if (!item.equals("-")) 
s.push(item); 


else if (!s.isEmpty()) StdOut.print(s.popO + ” "); 
l 


StdOut.printin("(" + s.size() + " left on stack)"); 


Stack 的 测试 用 例 


这 份 实现 是 我 们 对 许多 算法 的 实现 的 原型 。 它 定义 了 链表 数据 结构 并 实现 了 供用 例 使 用 的 方法 

pushQ 和 popO , 仅 用 了 少量 代码 就 取得 了 所 期 望 的 效果 。 算 法 和 数据 结构 是 相辅相成 的 。 在 本 例 中 ， 

147 算法 的 实现 代码 很 简单 ， 但 数据 结构 的 性 质 却 并 不 简单 ， 我 们 用 了 好 几 页 纸 来 说 明 这 些 性 质 。 这 种 
148 数据 结构 的 定义 和 算法 的 实现 的 相互 作用 很 常见 ， 也 是 本 书 中 我 们 对 抽象 数据 类 型 的 实现 重点 。 


算法 1.2 下 压 堆栈 (链表 实现 ) 


public class Stack<Item> implements Iterable<Item> 


{ 


private Node first; // 栈 顶 (最 近 添加 的 元 素 ) 
private int N; // 元 素数 量 

private class Node 

{ // 定义 了 结 点 的 瞪 套 类 


Item item; 

Node next; 
} 
public boolean isEmpty() { return first == null; } // 或 : N == 
public int size() { return N; } 


public void push(Item item) 

{ // 向 栈 顶 添加 元 素 
Node oldfirst = first; 
first = new Node() ; 
first.item = item; 
first.next oldfirst; 
N++; 

} 

public Item pop() 

{ // 从 栈 顶 删除 元 素 
Item item = first.item; 
first = first.next; 
N==5 
return item; 


// iterator() 的 实现 请 见 算法 1.4 
// 测试 用 例 main() 的 实现 请 见 本 节 前 面部 分 
} % more tobe.txt 
to be or not to - be- - that - - - is 
这 份 泛 型 的 Stack 实现 的 基础 是 链表 数据 结构 。 a 
NE 训 沁 洪 刑 抽 标 ”三 十 持 闯 代 汗 % java Stack < tobe.txt 
它 可 以 用 于 创建 任意 数据 类 型 的 栈 。 要 支持 迁 代 ， 请 to be not that or be (2 left on stack) 
添加 算法 1.4 中 为 Bag 数 据 类 型 给 出 的 加 粗 部 分 的 代码 。 
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1.3.3.9 队列 的 实现 

基于 链表 数据 结构 实现 Queue API 也 很 简单 ， 如 算法 1.3 所 示 。 它 将 队列 表示 为 一 条 从 最 早 插 
和 人 的 元 素 到 最 近 插 入 的 元 素 的 链表 ， 实 例 变量 first 指向 队列 的 开头 ， 实 例 变量 1ast 指向 队列 的 
结尾 。 这 样 , 要 将 一 个 元 素 入 列 (enqueue() ) , 我 们 就 将 它 添加 到 表 尾 (请 见 图 1.3.8 中 讨论 的 代码 ， 
但 是 在 链表 为 空 时 需要 将 first 和 1ast 都 指向 新 结 点 ) ; 要 将 一 个 元 素 出 列 ( dequeue() ) ,我 
们 就 删除 表 头 的 结 点 (代码 和 Stack 的 popQ 〇 方法 相同 ， 只 是 当 链 表 为 空 时 需要 更 新 1ast 的 值 ) 。 
size() 和 isEmpty() 方法 的 实现 和 Stack 相同 。 和 Stack 一 样 ，Queue 的 实现 也 使 用 了 泛 型 参数 
Item。 这 里 我 们 省 略 了 支持 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 下 面 所 示 的 是 一 个 开发 
用 例 ， 它 和 我 们 在 Stack 中 使 用 的 用 例 很 相似 ， 它 的 轨迹 如 算法 1.3 所 示 。Queue 的 实现 使 用 的 数 
据 结构 和 Stack 相同 一 一 链表 ,但 它 实 现 了 不 同 的 添加 和 删除 元 素 的 算法 ， 这 也 是 用 例 所 看 到 的 后 
进 先 出 和 先进 后 出 的 区 别 所 在 。 和 刚才 一 样 ， 我 们 用 链表 达到 了 最 优 设计 目标 : 它 可 以 处 理 任意 类 
型 的 数据 ， 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ， 操 作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。? 


public static void main(String[] args) 
{ // 创建 一 个 队列 并 操作 字符 串 入 列 或 出 列 


Queue<String> q = new Queue<String>() ; 


while (!StdIn.isEmpty()) 
{ 
String item = StdIn.readStringQ; 
if (!item.equals("-")) 
dq.enqueue(item); 
else if (!q.isEmpty()) StdOut.print(q.dequeue() + " "); 
了 


StdOut.printin("(" + dq.size() + " left on queue)"); 


Queue 的 测试 用 例 


% more tobe.txt 
to be or not to - be- - that - - - is 


% java Queue < tobe.txt 
to be or not to be (2 left on queue) 
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算法 1.3 ”先进 先 出 队列 


public class Queue<Item> implements Iterable<Item> 
{ 
private Node first; // 指向 最 早 添加 的 结 点 的 链接 
private Node 1ast; // 指向 最 近 添 加 的 结 点 的 链接 
private int N; // 队列 中 的 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 误 套 类 


OD 这 里 原 书 应 该 是 因为 版 面 原因 没有 使 用 列表 ,如 果 版 面 允许 可 以 使 用 和 Stack 部 分 相同 的 列表 显示 这 三 个 目标 。 
一 译 者 注 
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Item item; 
Node next; 


} 
public boolean isEmpty() { return first == null; } // 或 : N == 0. 
public int size(0) { return N; +} 
public void enqueue(Item item) 
{ // 向 表 尾 添加 元 素 
Node oldlast = last; 
last = new Node() ; 
last.item = item; 
last.next = null; 
if (isEmpty()) first = last; 
else oldlast.next = last; 
N++; 
} 
public Item dequeue() 
{ // 从 表 头 删除 元 素 
Item item = first.item; 
first = first.next; 
if (isEmpty()) last = null; 
N--; 
return item; 
// iterator() 的 实现 请 见 算法 1.4 
// 测试 用 例 main() 的 实现 请 见 前 面 
} 


这 份 泛 型 的 Queue 实现 的 基础 是 链表 数据 结构 。 它 可 以 用 于 创建 任意 数据 类 型 的 队列 。 要 支持 迭代 ， 
请 添加 算法 1.4 中 为 Bag 数据 类 型 给 出 的 加 粗 部 分 的 代码 。 


Queue 的 开发 用 例 的 轨迹 如 图 1.3.10 所 示 。 

在 结构 化 存储 数据 集 时 ， 链 表 是 数组 的 一 种 重要 的 替代 方式 。 这 种 替代 方案 已 经 有 数 十 年 的 历 
史 。 事 实 上 ， 编 程 语言 历史 上 的 一 块 里 程 碑 就 是 McCathy 在 20 世纪 50 年 代 发 明 的 LISP 语言 ， 而 
链表 则 是 这 种 语言 组 织 程序 和 数据 的 主要 结构 。 在 练习 中 你 会 发 现 ， 链 表 编 程 也 会 遇 到 各 种 问题 ， 
且 调试 十 分 困难 。 在 现代 编程 语言 中 ， 安 全 指针 、 自 动 垃圾 回收 (请 见 1.2 节 答 疑 部 分 ) 和 抽象 数 
据 类 型 的 使 用 使 我 们 能 够 将 链表 处 理 的 代码 封装 在 若干 个 类 中 ， 正 如 本 文 所 述 。 
1.3.3.10 ”背包 的 实现 
链表 数据 结构 实现 我 们 的 Bag API 只 需要 将 Stack 中 的 pushQ 改名 为 add QO)， 并 去 掉 
popQ 的 实现 即 可 ， 如 算法 1.4 所 示 ( 也 可 以 用 相同 的 方法 实现 Queue， 但 需要 的 代码 更 多 ) 。 
在 这 份 实现 中 ， 加 粗 部 分 的 代码 可 以 通过 遍历 链表 使 Stack、Queue 和 Bag 变 为 可 迭代 的 。 对 
于 Stack， 链 表 的 访问 顺序 是 后 进 先 出 ; 对 于 Queue， 链 表 的 访问 顺序 是 先进 先 出 ; 对 于 Bag， 
它 正 好 也 是 后 进 先 出 的 顺序 ， 但 顺序 在 这 里 并 不 重要 。 如 算法 1.4 中 加 粗 部 分 的 代码 所 示 ， 要 在 
集合 数据 类 型 中 实现 迭代 ， 第 一 步 就 是 要 添加 下 面 这 行 代码 ， 这 样 我 们 的 代码 才能 引用 Java 的 
Iterator 接口 : 


import java.util.Iterator; 
第 二 步 是 在 类 的 声明 中 添加 这 行 代码 ， 它 保证 了 类 必然 会 提供 一 个 iterator () 方法 : 


implements Iterable<Item> 
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图 1.3.10 ”Queue 的 开发 用 例 的 轨迹 


iterator() 方法 本 身 只 是 简单 地 从 实现 了 Iterator 接口 的 类 中 返回 一 个 对 象 : 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 


这 段 代 码 保证 了 类 必然 会 实现 方法 hasNext()、next() 和 remove() 供用 例 的 foreach 语 
法 使 用 。 要 实现 这 些 方法 ， 算 法 1.4 中 的 般 套 类 ListIterator 维护 了 一 个 实例 变量 current 


来 记录 链表 的 当前 结 点 。hasNext0 方法 会 检测 current 是 否 为 nul11，next() 方法 会 保存 当 152 
前 元 素 的 引用 ， 将 current 变量 指向 链表 中 的 下 个 结 点 并 返回 所 保存 的 引用 。 154 
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算法 1.4 背包 
import java.util.Iterator; 
public class Bag<Item> implements Iterable<Item> 
{ 
private Node first;  // 链表 的 首 结 点 
private class Node 


和 


Item item; 
Node next; 


public void add(Item item) 

{ // 和 Stack 的 push() 方法 完全 相同 
Node oldfirst = first; 
first = new NodeQO; 
first.item = item; 
first.next = oldfirst; 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 
private class ListIterator implements Iterator<Item> 
{ 
private Node current = first; 
public boolean hasNextQO) 
{ return current != null; } 
public void remove() {+ 
public Item next() 
1 
Item item = Current .item; 
current = current .next; 
return item; 


} 
} 


这 份 Bag 的 实现 维护 了 一 条 链表 ， 用 于 保存 所 有 通过 add0 添加 的 元 素 。sizeC) 和 isEmpty0 方 
法 的 代码 和 Stack 中 的 完全 相同 ， 因 此 在 此 处 省 略 。 和 迭代 器 会 遍历 链表 并 将 当前 结 点 保存 在 current 变 
量 中 。 我 们 可 以 将 加 粗 的 代码 添加 到 算法 1.2 和 算法 1.3 中 使 Stack 和 Queue 变 为 可 迁 代 的 ， 因 为 它们 


155| ”背后 的 数据 结构 是 相同 的 ， 只 是 Stack 和 Queue 的 链表 访问 顺序 分 别 是 后 进 先 出 和 先进 先 出 而 已 。 


1.3.4 ”综述 


在 本 节 中 ， 我 们 所 学 习 的 支持 泛 型 和 和 迭代 的 背包 、 队 列 和 栈 的 实现 所 提供 的 抽象 使 我 们 能 够 纺 
写 简洁 的 用 例 程 序 来 操作 对 象 的 集合 。 深 入 理解 这 些 抽象 数据 类 型 非常 重要 ， 这 是 我 们 研究 算法 和 
数据 结构 的 开始 。 原 因 有 三 : 第 一 ， 我 们 将 以 这 些 数据 类 型 为 基石 构造 本 书 中 的 其 他 更 高 级 的 数据 
结构 ; 第 二 ， 它 们 展示 了 数据 结构 和 算法 的 关系 以 及 同时 满足 多 个 有 可 能 相互 冲突 的 性 能 目标 时 所 
要 面 对 的 挑战 ; 第 三 ， 我们 将 要 学 习 的 若干 算法 的 实现 重点 就 是 需要 其 中 的 抽象 数据 类 型 能 够 支持 
对 对 象 集合 的 强大 操作 ， 这 些 实现 正 是 我 们 的 起 点 。 
数据 结构 

我 们 现在 拥有 两 种 表示 对 象 集合 的 方式 ， 即 数组 和 链表 ( 如 表 1.3.7 所 示 ) 。Java 内 置 了 数组 ， 
链表 也 很 容易 使 用 Java 的 标准 方法 实现 。 两 者 都 非常 基础 ， 常 常 被 称 为 顺序 存储 和 链 式 存储 。 在 本 
书后 面部 分 ， 我 们 会 在 各 种 抽象 数据 类 型 的 实现 中 将 多 种 方式 结 归并 扩展 这 些 基 本 的 数据 结构 。 其 
中 一 种 重要 的 扩展 就 是 各 种 含有 多 个 链接 的 数据 结构 。 例 如 ，3.2 节 和 3.3 节 的 重点 就 是 被 称 为 二 又 


1.3 背包 、 队 列 和 栈 二 99 


树 的 数据 结构 ， 它 由 含有 两 个 链接 的 结 点 组 成 。 另 一 个 重要 的 扩展 是 复合 型 的 数据 结构 : 我 们 可 以 
使 用 背包 存储 栈 , 用 队列 存储 数组 , 等 等 。 例如 , 第 4 章 的 主题 是 图 , 我 们 可 以 用 数组 的 背包 表示 它 。 
用 这 种 方式 很 容易 定义 任意 复杂 的 数据 结构 ， 而 我 们 重点 研究 抽象 数据 类 型 的 一 个 重要 原因 就 是 试 
图 控制 这 种 复杂 度 。 


表 1.3.7 基础 数据 结构 


数据 结构 优 点 缺 ”点 
数组 通过 索引 可 以 直接 访问 任意 元 素 在 初始 化 时 就 需要 知道 元 素 的 数量 
链表 使 用 的 空间 大 小 和 元 素数 量 成 正比 需要 通过 引用 访问 任意 元 素 156 


我 们 在 本 节 中 研究 背包 、 队 列 和 栈 时 描述 数据 结构 和 算法 的 方式 是 全 书 的 原型 ( 本 书 中 的 数据 

结构 示例 见 表 1.3.8 ) 。 在 研究 一 个 新 的 应 用 领域 时 ， 我 们 将 会 按照 以 下 步骤 识别 目标 并 使 用 数据 抽 
象 解决 问题 : 
口 定义 API; 
口 根据 特定 的 应 用 场景 开发 用 例 代码 ; 
口 描述 一 种 数据 结构 (一 组 值 的 表示 ) ， 并 在 API 所 对 应 的 抽象 数据 类 型 的 实现 中 根据 它 定 
义 类 的 实例 变量 ; 
口 描述 算法 ( 实现 一 组 操作 的 方式 ) ， 并 根据 它 实 现 类 中 的 实例 方法 ; 
口 分 析 算 法 的 性 能 特点 。 

在 下 一 节 中 ,我 们 会 详细 研究 最 后 一 步 ， 因 为 它 常 常 能 够 决定 哪 种 算法 和 实现 才 是 解决 现实 应 
j 问 题 的 最 佳 选择 。 


表 1.3.8 本 书 所 给 出 的 数据 结构 举例 


数据 结构 章 节 抽象 数据 类 型 数据 表示 
父 链接 树 1.5 UnionFind 整 型 数组 
二 分 查找 树 3.2、3.3 BST 含有 两 个 链接 的 结 点 
字符 串 5.1 String 数组 、 偏 移 量 和 长 度 
二 又 堆 2.4 PQ 对 象 数组 
散 列 表 (拉链 法 ) 3.4 SeparateChainingHashST 链表 数组 
散 列表 ( 线性 探测 法 ) 3.4 LinearProbingHashST 两 个 对 象 数组 
图 的 邻接 链表 4.1、4.2 Graph Bag 对 象 的 数组 
单词 查找 树 5.2 TrieST 含有 链接 数组 的 结 点 
三 向 单词 查找 树 5.3 TST 含有 三 个 链接 的 结 点 157 


问 并 不 是 所 有 编程 语言 都 支持 泛 型 ， 其 至 Java 的 早期 版 本 也 不 支持 。 有 其 他 替代 方案 吗 ? 


答 ”如 正文 所 述 ， 一 种 蔡 代 方法 是 为 每 种 类 型 的 数据 都 实现 一 个 不 同 的 集合 数据 类 型 。 另 一 种 方法 是 构 
造 一 个 0bject 对 象 的 栈 ， 并 在 用 例 中 使 用 popQ 时 将 得 到 的 对 象 转换 为 所 需 的 数据 类 型 。 这 种 方 
式 的 问题 在 于 类 型 不 匹配 错误 只 能 在 运行 时 发 现 。 而 在 泛 型 中 ， 如 果 你 的 代码 将 错误 类 型 的 对 象 压 
入 栈 中 ， 比 如 这 样 : 
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158 


159 


Stack<Apple> stack = new Stack<Apple>() ; 
Apple a = new Apple0); 


Opange b = new OrangeQO; 

stack. pushCa); 

Staelk DUShcby: // 编译 时 错误 

会 得 到 一 个 编译 时 错误 : 

push(CApple) in Stack<Apple> cannot be applied to (Orange) 

能 够 在 编译 时 发 现 错误 足以 说 服 我 们 使 用 泛 型 。 

为 什么 Java 不 允许 泛 型 数组 ? 

专家 们 仍然 在 争论 这 一 点 。 你 可 能 也 需要 成 为 专家 才能 理解 它 ! 对 于 初学 者 ， 请 先 了 解 共 变数 组 
( covariant array ) 和 类 型 擦 除 (type erasure ) 。 

如 何 才 能 创建 一 个 字符 串 栈 的 数组 ? 

使 用 类 型 转换 ， 比 如 : 

Stack<String>[] a = (Stack<String>[]) new Stack[N]; 

警告 : 这 段 类 型 转换 的 用 例 代码 和 1.3.2.2 节 所 示 的 有 所 不 同 。 你 可 能 会 以 为 需要 使 用 Object 而 非 
Stack。 在 使 用 泛 型 时 ，Java 会 在 编译 时 检查 类 型 的 安全 性 ， 但 会 在 运行 时 抛弃 所 有 这 些 信息 。 
此 在 运行 时 语句 右 侧 就 变 成 了 Stack<0bject>[] 或 者 只 剩 下 了 Stack[] ， 因 此 我 们 必须 将 它们 转化 
为 Stack<String>[]。 

在 栈 为 空 时 调用 popQ 〇 会 发 生 什么 ? 

这 取决 于 实现 。 对 于 我 们 在 算法 1.2 中 给 出 的 实现 ， 你 会 得 到 一 个 Nu11PointerException 异常 。 
对 于 我 们 在 本 书 的 网 站 上 给 出 的 实现 , 我 们 会 抛 出 一 个 运行 时 异常 以 帮助 用 户 定位 错误 。 一 般 来 说 ， 
在 应 用 广泛 的 代码 中 这 类 检查 越 多 越 好 。 

既然 有 了 链表 ， 为 什么 还 要 学 习 如 何 调整 数组 的 大 小 ? 

我 们 还 将 会 学 习 若 干 抽象 数据 类 型 的 示例 实现 , 它们 需要 使 用 数组 来 实现 一 些 链表 难以 实现 的 操作 。 
ResizingArrayStack 是 控制 它们 的 内 存 使 用 的 样板 。 

为 什么 将 Node 声明 为 衣 套 类 ? 为 什么 使 用 private ? 

将 Node 声明 为 私有 的 髓 套 类 之 后 ， 我 们 可 以 将 Node 的 方法 和 实例 变量 的 访问 范围 限制 在 包含 它 的 
类 中 。 私 有 髓 套 类 的 一 个 特点 是 只 有 包含 它 的 类 能 够 直接 访问 它 的 实例 变量 ， 因 此 无 需 将 它 的 实例 

变量 声明 为 public 或 是 private。 专 业 背 景 较 强 的 读者 注意 : 非 静 态 的 恋 套 类 也 被 称 为 内 部 类 ， 
因此 从 技术 上 来 说 我 们 的 Node 类 也 是 内 部 类 ， 尽 管 非 泛 型 的 类 也 可 以 是 静态 的 。 

当 我 输入 javac Stack.java 编译 算法 1.2 和 其 他 程序 时 ， 我 发 现 了 Stack.class 和 Stack$Node.class 

两 个 文件 。 第 二 个 文件 是 做 什么 用 的 ? 
第 二 个 文件 是 为 内 部 类 Node 创建 的 。Java 的 命名 规则 会 使 用 $ 分 隔 外 部 类 和 内 部 类 。 

Java 标准 库 中 有 栈 和 队列 吗 ? 
有 ， 也 没有 。Java 有 一 个 内 置 的 库 ， 叫 做 java.util.Stack， 但 你 需要 栈 的 时 候 请 不 要 使 用 它 。 它 新 增 
了 几 个 一 般 不 属于 栈 的 方法 ， 例 如 获取 第 i 个 元 素 。 它 还 允许 从 栈 底 添加 元 素 ( 而 非 栈 项 ) ， 所 以 
它 可 以 被 当做 队列 使 用 ! 尽管 拥有 这 些 额 外 的 操作 看 起 来 可 能 很 有 用 ， 但 它们 其 实 是 累 熬 。 我 们 使 

用 某 种 数据 类 型 不 仅仅 是 为 了 获得 我 们 能 够 想象 的 各 种 操作 ， 也 是 为 了 准确 地 指定 我 们 所 需要 的 操 
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作 。 这 么 做 的 主要 好 处 在 于 系统 能 够 防止 我 们 执行 一 些 意外 的 操作 。java.util.Stack 的 API 是 宽 接 口 
的 一 个 典型 例子 ,我们 通常 会 极力 避免 出 现 这 种 情况 。 

问 是否 允 许 用 例 向 栈 或 队列 中 添加 空 ( nu11 ) 元 素 ? 

答 在 Java 中 实现 集合 类 数据 类 型 时 这 个 问题 是 很 常见 的 。 我 们 的 实现 ( 以 及 Java 的 栈 和 队列 库 ) 允许 
插入 null1 值 。 

问 ”如 果 用 例 在 迭代 中 调用 pushQ 或 者 popC) ，Stack 的 迭代 器 应 该 怎么 办 ? 

答 ” 作 为 一 个 快速 出 错 的 近 代 器 ， 它 应 该 立即 抛 出 一 个 java.uti1.ConcurrentModificationException 
异常 。 请 见 练习 1.3.50。 

问 ”我 们 能 够 用 foreach 循环 访问 数组 吗 ? 

答 可 以 (尽管 数组 没有 实现 Iterable 接口 ) 。 以 下 代码 将 会 打印 所 有 命令 行 参数 : 


public static void main(String[] args) 
{ for (String s : args) StdOut.printiln(s); } 


问 我们 能 够 用 foreach 循环 访问 字符 串 吗 ? 
答 ”不行 ，String 没有 实现 Iterable 接口 。 
问 为 什么 不 实现 一 个 单独 的 Collection 数据 类 型 并 实现 添加 元 素 、 删 除 最 近 插 入 的 元 素 、 删 除 最 早 
插入 的 元素 、 删 除 随机 元 素 、 人 迭代 、 返 回 集合 元 素数 量 和 其 他 我 们 可 能 需要 的 方法 ”这 样 我 们 就 能 
在 一 个 类 中 实现 所 有 这 些 方法 并 可 以 应 用 于 各 种 用 例 。 

再 次 强调 一 遍 ， 这 又 是 一 个 宽 接 口 的 例子 。Java 在 java.uti1.ArrayList 和 java.uti1.LinkedList 
类 中 实现 了 类 似 的 设计 。 避 免 使 用 它们 的 一 个 原因 是 这 样 无 法 保证 高 效 实现 所 有 这 些 方法 。 在 本 
书 中 ， 我 们 总 是 以 API 作为 设计 高 效 算 法 和 数据 结构 的 起 点 ， 而 设计 只 含有 几 个 操作 的 接口 显 
然 比 设计 含有 许多 操作 的 接口 更 简单 。 我 们 坚持 窗 接 口 的 另 一 个 原因 是 它们 能 够 限制 用 例 的 行 
为 ， 这 将 使 用 例 代码 更 加 易 懂 。 如 果 一 段 用 例 代码 使 用 Stack<String>， 而 男 一 段 用 例 代码 使 用 
Queue<Transaction>， 我 们 就 可 以 知道 后 进 先 出 的 访问 顺序 对 于 前 者 很 重要 ， 而 先进 先 出 的 访问 顺 


蕉 
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序 对 于 后 者 很 重要 。 160 


图 练习 


1.3.1 为 FixedCapacityStackOfStrings 添加 一 个 方法 isFul10) 。 
1.3.2 ”给 定 以 下 输入 ，java Stack 的 输出 是 什么 ? 


it was - the best - of times - - - it was - the - - 
1.3.3 假设 某 个 用 例 程序 会 进行 一 系列 和 人 栈 和 出 栈 的 混合 栈 操作 。 入 栈 操 作 会 将 整数 0 到 9 按 顺 序 压 入 

栈 ; 出 栈 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a4321098765 

b.4687532901 

c25o7r4893 工 0 

d4321056789 

e1234569870 

f0465381729 

81479865302 

h.2143658790 
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1.3.10 


1.3.11 


1.3.12 


1.3.13 


1.3.14 


编写 一 个 Stack 的 用 例 Parentheses， 从 标准 输入 中 读 取 一 个 文本 流 并 使 用 栈 判 定 其 中 的 括 
号 是 否 配对 完整 。 例 如 ， 对 于 [GO]fItLGOGO]GOT 程序 应 该 打印 true， 对 于 [GO]) 则 打印 


false。 


当 N 为 50 时 下 面 这 段 代 码 会 打印 什么 ”从 较 高 的 抽象 层次 描述 给 定 正 整数 N 时 这 段 代码 的 行为 。 
Stack<Integer> stack = new Stack<Integer>() ; 
while (CN > 0) 
{ 
stack.push(N % 2); 
N=N/2; 
3 
for (int d : stack) StdOut.print(d); 
StdOut.print1nQO; 


答 : 打印 N 的 二 进 制 表示 ( 当 N 为 50 时 打印 110010 ) 。 
下 面 这 段 代码 对 队列 q 进行 了 什么 操作 ? 
Stack<String> stack = new Stack<String>() ; 
while (!q.isEmptyO)) 
stack.push(q.dequeue()); 
while (!stack.isEmpty()) 
q.enqueue(stack.popO); 
为 Stack 添加 一 个 方法 peek() ， 返 回 栈 中 最 近 添加 的 元 素 ( 而 不 弹出 它 ) 。 
给 定 以 下 输入 ， 给 出 Doub1ingStackOfStrings 的 数组 的 内 容 和 大 小 。 


it was - the best - of times - - - it was - the - - 


编写 一 段 程序 ， 从 标准 输入 得 到 一 个 缺少 左 括号 的 表达 式 并 打印 出 补 全 括号 之 后 的 中 序 表达 式 。 
例如 ， 给 定 输入 : 


1+2)*3-4)*5-6))) 

你 的 程序 应 该 输出 : 

CC1+2)*(C(3-4)*(5-6))) 

编写 一 个 过 滤器 InfixToPostfix， 将 算术 表达 式 由 中 序 表达 式 转 为 后 序 表达 式 。 

编写 一 段 程序 EvaluatePostfix ， 从 标准 输入 中 得 到 一 个 后 序 表达 式 ， 求 值 并 打印 结果 ( 将 上 一 题 
的 程序 中 得 到 的 输出 用 管道 传递 给 这 一 段 程 序 可 以 得 到 和 Evaluate 相同 的 行为 ) 。 
编写 一 个 可 迭代 的 Stack 用 例 ， 它 含有 一 个 静态 的 copyQ 方法 ， 接 受 一 个 字符 串 的 栈 作为 参数 
并 返回 该 栈 的 一 个 副本 。 注 意 : 这 种 能 力 是 迭代 器 价值 的 一 个 重要 体现 ， 因 为 有 了 它 我 们 无 需 
改变 基本 API 就 能 够 实现 这 种 功能 。 

假设 某 个 用 例 程序 会 进行 一 系列 入 列 和 出 列 的 混合 队列 操作 。 入 列 操作 会 将 整数 0 到 9 按 顺 序 
插入 队列 ; 出 列 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a0123456789 

b.4687532901 

c2567489310 

d4321056789 

编写 一 个 类 ResizingArrayQueue0fStrings， 使 用 定 长 数组 实现 队列 的 抽象 ， 然 后 扩展 实现 ， 
使 用 调整 数组 的 方法 突破 大 小 的 限 肖 


Le 


o 
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1.3.15 ”编写 一 个 Queue 的 用 例 ， 接 受 一 个 命令 行 参数 k 并 打印 出 标准 输入 中 的 倒数 第 k 个 字符 串 〈 假 
设 标 准 输入 中 至 少 有 k 个 字符 串 ) 。 

1.3.16 使 用 1.3.1.5 节 中 的 readInts() 作为 模板 为 Date 编写 一 个 静态 方法 readDates() ， 从 标准 输入 
中 读 取 由 练习 1.2.19 的 表格 所 指定 的 格式 的 多 个 日 期 并 返回 一 个 它们 的 数组 。 

1.3.17 为 Transaction 类 完成 练习 1.3.16。 
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图 链表 练习 


这 部 分 练习 是 专门 针对 链表 的 。 建 议 : 使 用 正文 中 所 述 的 可 视 化 表达 方式 画图 。 
1.3.18 ”假设 x 是 一 条 链表 的 某 个 结 点 且 不 是 尾 结 点 。 下 面 这 条 语句 的 效果 是 什么 ? 


x.next = x.next.next; 
答 : 删除 x 的 后 续 结 点 。 
1.3.19 给 出 一 段 代码 ， 删 除 链 表 的 尾 结 点 ， 其 中 链表 的 首 结 点 为 first。 
1.3.20 ”编写 一 个 方法 delete()， 接 受 一 个 int 参数 K， 删 除 链表 的 第 k 个 元 素 〈 如 果 它 存在 的 话 ) 。 
1.3.21 编写 一 个 方法 find()， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 。 如 果 链 表 中 的 某 个 结 点 的 
item 域 的 值 为 key， 则 方法 返回 true， 否 则 返回 false。 
1.3.22 ”假设 x 是 一 条 链表 中 的 某 个 结 点 ， 下 面 这 段 代码 做 了 什么 ? 


t.next = x.next; 
x.next = 七 ; 


答 : 搬入 结 点 七 并 使 它 成 为 x 的 后 续 结 点 。 
1.3.23 ”为 什么 下 面 这 段 代 码 和 上 一 道 题 中 的 代码 效果 不 同 ? 


x.next = 七 ; 
t.next = x.next; 


答 : 在 更 新 t.next 时 ，x.next 已 经 不 再 指向 x 的 后 续 结 点 ， 而 是 指向 t 本 身 ! 

1.3.24 ”编写 一 个 方法 removeAfter()， 接 受 一 个 链表 结 点 作为 参数 并 删除 该 结 点 的 后 续 结 点 ( 如果 参 
数 结 点 或 参数 结 点 的 后 续 结 点 为 空 则 什么 也 不 做 ) 。 

1.3.25 ”编写 一 个 方法 insertAfter()， 接 受 两 个 链表 结 点 作为 参数 ， 将 第 二 个 结 点 插入 链表 并 使 之 成 


小 


\ 


为 第 一 个 结 点 的 后 续 结 点 ( 如 果 两 个 参数 为 空 则 什么 也 不 做 ) 。 164 
1.3.26 ”编写 一 个 方法 remove() ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 ， 删 除 链 表 中 所 有 item 域 

为 key 的 结 点 。 
1.3.27 ”编写 一 个 方法 max() ， 接 受 一 条 链表 的 首 结 点 作为 参数 ， 返 回 链表 中 键 最 大 的 节点 的 值 。 假 设 所 
有 键 均 为 正 整数 ， 如 果 链 表 为 空 则 返回 0。 


1.3.28 用 递归 的 方法 解答 上 一 道 练习 。 
1.3.29 用 环形 链表 实现 Queue。 环形 链表 也 是 一 条 链表 ， 只 是 没有 任何 结 点 的 链接 为 空 ， 且 只 要 链表 非 


空 则 1ast.next 的 值 为 first。 只 能 使 用 一 个 Node 类 型 的 实例 变量 ( 1ast ) 。 
1.3.30 ”编写 一 个 函数 ， 接 受 一 条 链表 的 首 结 点 作为 参数 ，( 破坏 性 地 ) 将 链表 反 转 并 返回 结果 链表 的 
首 结 点 。 
迭代 方式 的 解答 . 为 了 完成 这 个 任务 ， 我 们 需要 记录 链表 中 三 个 连续 的 结 点 : reverse、first 
和 second。 在 每 轮 迭 代 中 ,我们 从 原 链表 中 提取 结 点 fi rst 并 将 它 插入 到 逆 链 表 的 开头 。 我 们 
需要 一 直 保 持 fi rst 指向 原 链 表 中 所 有 剩余 结 点 的 首 结 点 ，second 指向 原 链表 中 所 有 剩余 结 点 
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的 第 二 个 结 点 ，reverse 指向 结果 链表 中 的 首 结 点 。 


public Node reverse(Node x) 


{ 
Node first 
Node reverse 


X， 


= null; 


while (first != nul1) 


{ 
Node second = first.next; 
first.next = reverse; 
reverse = first; 
first = second; 


return reverse, 
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和 边界 情况 ( 人 处理 首尾 结 点 ) 。 它 们 通常 比 处 理 正常 情况 要 困难 得 多 。 


递归 解答 : 假设 链表 含有 NN 个 结 点 ， 我 们 先 递 ! 


的 首 结 点 插入 到 结果 链表 的 末端 。 


public Node reverse(Node first) 


{ 


if (first == nul1) return null; 
if (first.next == nul1) return first; 


Node second = 


first.next; 


Node rest = reverse(second); 


second.next = 
first.next = 
return rest; 


} 


first; 
null; 


可 颠 倒 最 后 N-1 个 结 点 ， 


在 编写 和 链表 相关 的 代码 时 ,我 们 必须 小 心 处 理 异常 情况 ( 链表 为 空 或 是 只 有 一 个 或 两 个 结 点 ) 


然后 小 心地 将 原 链表 中 


1.3.31 实现 一 个 嵌 套 类 DoubleNode 用 来 构造 双向 链表 ， 其 中 每 个 结 点 都 含有 一 个 指向 前 驱 元 素 的 引用 


和 一 项 指向 后 续 元 素 的 引 
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在 指定 结 点 之 后 插入 新 结 点 、 删 除 指定 结 点 。 


图 提高 是 


1.3.32 Steque。 一 个 以 栈 为 目标 的 队列 (或 称 steque ) ， 


]( 如 果 不 存在 则 为 nu11 ) 。 为 以 下 任务 实现 若干 静态 方法 : 在 表 头 


插入 结 点 、 在 表 尾 插入 结 点 、 从 表 头 删除 结 点 、 从 表 尾 删除 结 点 、 在 指定 结 点 之 前 插入 新 结 点 、 


是 一 种 支持 push、pop 和 enqueue 操作 的 数 


据 类 型 。 为 这 种 抽象 数据 类 型 定义 一 份 API 并 给 出 一 份 基于 链表 的 实现 。* 
1.3.33 ”Deque。 一 个 双向 队列 (或 者 称 为 deque ) 和 栈 或 队列 类 似 , 但 它 同时 支持 在 两 端 添 加 或 删除 元 素 。 
Deque 能 够 存储 一 组 元 素 并 支持 表 1.3.9 中 的 API: 


表 1.3.9 泛 型 双向 队列 的 API 


public class Deque<Item> implements Iterable<Item> 


Deque() 创建 空 双向 队列 


boolean isEmptyO) 双向 队列 是 否 为 空 


Q@ push、pop 都 是 对 队列 同一 端的 操作 ，enqueue 和 push 对 应 ， 但 操作 的 是 队列 的 另 一 端 。 一 一 译 者 注 
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public class Deque<Item> implements Iterable<Item> 

双向 队列 中 的 元 素数 量 
左 端 添加 一 个 新 元 素 

pushRight(Item item) 句 右 端 添 加 一 个 新 元 素 

popLeft() 从 左 端 删除 一 个 元 素 

popRight() 从 右 端 删除 一 个 元 素 


int size() 


void pushLeft(Item item) 可 


void 


Item 


Item 


编写 一 个 使 用 双向 链表 实现 这 份 API 的 Deque 类 ， 以 及 一 个 使 


2 


包 。 随 机 背包 能 够 存储 一 组 元 素 并 支持 表 1.3.10 中 的 API: 


用 动态 数组 调整 实现 这 份 API 的 
ResizingArrayDeque 
1.3.34 ”随机 背 
表 1.3.10” 泛 型 随机 背包 的 API 
public class RandomBag<Item> implements Iterable<Item> 
RandomBag() 创建 一 个 空 随机 背 


isEmpty() 背包 是 否 为 空 


boolean 


int 


void 


size(O) 


add(Item item) 


编写 一 个 RandomBag 类 来 实现 这 份 API。 请 注意 


背包 中 的 元 素数 量 
添加 一 个 元 素 


， 除 了 


多 容 词 随机 之 外 ， 这 份 


API 和 Bag 的 API 


是 相同 的 ， 
现 的 可 外 
1.3.35 


8 性 均 相 同 ) 。 
随机 队列 。 


这 意味 着 迭代 应 该 随机 访问 半 


提示 : 


随机 队列 和 外 


表 1.3.11 


public class RandomQueue<Item> 


boolean 


RandomQueue 0) 


表 # 包 中 的 所 有 元 素 ( 对 于 每 次 近 代 ， 所 有 的 NI 种 排列 出 


] 数 组 保存 所 有 元 素 并 在 
bE 够 存储 一 组 元 素 并 支持 表 1.3.11 中 的 API: 


FE 迭代 器 的 构造 函数 中 随机 打 乱 它们 的 顺序 。 


泛 型 随机 队列 的 API 


创建 


一 条 空 的 随机 队列 


示 江 


void 


Item 


isEmpty() 
enqueue(Item item) 


dequeue() 


队列 是 
添加 一 个 
删除 并 


和 否 为 空 
元素 
随机 返 区 


一 个 元 素 ( 取样 且 不 放 


回 ) 


167 


Item 


sample QO) 随机 返回 一 个 元 素 但 不 删除 它 ( 取样 且 放 回 ) 


编写 一 个 RandomQueue 类 来 实现 这 份 API。 提 示 : 使 用 (能够 动态 调整 大 小 的 ) 数组 表示 
数据 。 删 除 一 个 元 素 时 ， 随 机 交换 某 个 元 素 ( 索引 在 0 和 N-1 之 间 ) 和 末 位 元 素 ( 索引 为 
-1 ) 的 位 置 ， 然 后 像 ResizingArrayStack 一 样 删除 并 返 ] 例 ， 使 用 
RandomQueue<Card> 在 桥牌 中 发 牌 (每 人 13 张 )。 
随机 迭代 器 。 为 上 一 题 中 的 RandomQueue<Item> 编写 一 个 迭代 器 ,随机 返回 队列 中 的 所 有 元 素 。 
Josephus 问题 。 在 这 个 古老 的 问题 中 ，X 个 身 陷 绝境 的 人 一 致 同意 通过 以 下 方式 减少 生存 人 
数 。 他 们 围 坐 成 一 圈 (位 置 记 为 0 到 N-1) 并 从 第 一 个 人 开始 报 数 ， 报 到 M 的 人 会 被 杀 死 ， 
直到 最 后 一 个 人 留 下 来 。 传 说 中 Josephus 找到 了 不 会 被 杀 死 的 位 置 。 编 写 一 个 Queue 的 用 例 


Josephus, 从 命令 行 接受 N 和 MM 并 打印 出 人 们 被 杀 死 的 顺序 ( 这 也 将 显示 Josephus 在 圈 中 的 位 置 )。 


% java Josephus 7 2 
1350426 


个 


回 末 位 元 素 。 编 写 


1.3.36 
1.3.37 


168 


106 戎 第 1 


169 


章 基 础 


1.3.38 ”删除 第 k 个 元 素 。 实 现 一 个 类 并 支持 表 1.3.12 中 的 API: 


1.3.39 


1.3.40 


1.3.41 


1.3.42 


1.3.43 


1.3.44 


表 1.3.12 泛 型 一 般 队 列 的 API 


public class GeneralizedQueue<Item> 


GeneralizedQueueQO) 
boolean isEmpty() 
void insert(Item x) 


Item delete(int k) 


首先 用 数组 实现 该 数据 类 型 ， 然 后 用 链表 实现 该 数据 类 型 


创建 一 条 空 | 
队列 是 否 为 室 


队列 


2 


添加 一 个 元 素 
删除 并 返回 最 早 插入 的 第 k 个 元 素 


。 注 意 : 我 们 在 第 3 章 中 


介绍 的 算法 


和 数据 结构 可 以 保证 insert() 和 delete() 的 实现 所 需 的 运行 时 间 和 和 队列 中 的 元 素数 量 成 对 


数 关系 一 一 请 见 练习 3.5.27。 


环形 缓冲 区 。 环 形 缓冲 区 ， 又 称 为 环形 队列 ， 是 一 种 定 长 为 X 的 先进 先 出 的 数据 结构 。 它 在 进 


程 间 的 异步 数据 传输 或 记录 日 志文 件 时 十 分 有 用 。 当 缓冲 
区 前 等 待 ; 当 缓 冲 区 满 时 , 生产 者 会 等 待 将 数据 存 人 缓冲 区 。 为 RingBuffer 设 计 一 份 API 并 用 ( 回 


环 ) 数组 将 其 实现 。 


区 为 空 时， 消费 者 会 在 数据 存 和 人 组; 


前 移 编 码 。 从 标准 输入 读 取 一 串 字 符 ， 使 用 链表 保存 这 些 字符 并 清除 重复 字符 。 当 你 读 取 了 一 


个 从 未 见 过 的 字符 时 ， 将 它 插 入 表 头 。 当 你 读 取 了 一 个 重复 的 字符 时 ， 将 它 从 链表 中 删 去 并 再 
它 实现 了 著名 的 前 移 编码 策略 ， 这 种 策略 假设 最 


次 插入 表 头 。 将 你 的 程序 命名 为 MoveToFront: 


近 访 问 过 的 元 素 很 可 能 会 再 次 访问 ， 因 此 可 以 用 


复制 队列 。 编 写 一 个 新 的 构造 函数 ， 使 以 下 代码 


Queue<Item> r = new Queue<Item>(q); 


于 缓存 、 数 据 压缩 等 许多 场景 。 


得 到 的 r 指向 队列 q 的 一 个 新 的 独立 的 副本 。 可 以 对 q 或 r 进行 任意 入 列 或 出 列 操作 但 它们 不 
会 相互 影响 。 提 示 : 从 q 中 取出 所 有 元 素 再 将 它们 插入 q 和 r。 
复制 栈 。 为 基于 链表 实现 的 栈 编 写 一 个 新 的 构造 函数 ,使 以 下 代码 


Stack<Item> t = new Stack<Item>(s); 


得 到 的 t 指 向 栈 s 的 一 个 新 的 独立 的 副本 。 


文件 列表 。 文 件 夹 就 是 一 列 文件 和 文件 夹 的 列表 。 编 写 一 个 程序 ， 从 命令 行 接受 


个 文件 夹 名 


作为 参数 ， 打 印 出 该 文件 夹 下 的 所 有 文件 并 用 递归 的 方式 在 所 有 子 文件 夹 的 名 下 ( 缩 进 ) 列 出 
其 下 的 所 有 文件 。 提 示 : 使 用 队列 ， 并 参考 java.io.File。 
文本 编辑 器 的 缓冲 区 。 为 文本 编辑 器 的 缓冲 区 设计 一 种 数据 类 型 并 实现 表 1.3.13 中 的 API。 


表 1.3.13 文本 缓冲 区 的 API 


Public class Buffer 


Buffer() 
void insert(char c) 
char deleteQO) 
void left(int k) 
void right(int k) 


int size() 


提示 : 使 用 两 个 栈 。 


创建 一 块 空 缓冲 区 


在 光标 位 置 插入 字符 c 


删除 并 返回 光标 位 置 的 字符 


将 光标 向 左 移动 k 个 位 置 
将 光标 向 右 移动 k 个 位 置 


缓 


Ph 区 中 的 字符 数量 
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1.3.45 栈 的 可 生成 性 。 假 设 我 们 的 栈 测 试用 例 将 会 进行 一 系列 混合 的 入 栈 和 出 栈 操作 ， 序 列 中 的 整数 
0,1,………,N-1 ( 按 此 先后 顺序 排列 ) 表示 入 栈 操作 ，N 个 减 号 表示 出 栈 操 作 。 设 计 一 个 算法 ， 判 
定 给 定 的 混合 序列 是 否 会 使 数组 向 下 溢出 ( 你 所 使 用 的 空间 量 与 NN 无 关 ， 即 不 能 用 某 种 数据 结 
构 存 储 所 有 整数 ) 。 设 计 一 个 线性 时 间 的 算法 判定 我 们 的 测试 用 例 能 否 产 生 某 个 给 定 的 排列 ( 这 
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取决 于 出 栈 操作 指令 的 出 现 位 置 
解答 : 除非 对 于 某 个 整数 k， 前 次 出 栈 操作 会 在 前 次 入 栈 操作 前 完成 ， 否 则 栈 不 会 向 下 淤 出 。 
如 果 某 个 排列 可 以 产生 , 那么 它 产生 的 方式 一 定 是 唯一 的 : 如 果 输 出 排列 中 的 下 一 个 整数 在 栈 顶 ， 
则 将 它 弹 出 ， 否 则 将 它 压 入 栈 之 中 。 
1.3.46 栈 可 生成 性 问题 中 禁止 出 现 的 排列 。 若 三 元 组 (a,b,c) 中 a<b<c 上 且 c 最 先 被 弹出 , a 第 二 , b 第 三 (ec 
和 a 以 及 a 和 ob 之 间 可 以 间隔 其 他 整数 ) ， 那 么 当 且 仅 当 排列 中 不 含 这 样 的 三 元 组 时 ( 如 上 题 所 
述 的 ) 栈 才 可 能 生成 它 。 
部 分 解答 : 设 有 一 个 这 样 的 三 元 组 (a,b,c)。c 会 在 a 和 b 之 前 被 弹出 , 但 a 和 b 会 在 c 之 前 被 压 信 。 
因此 ， 当 c 被 压 人 时 ,a 和 b 都 已 经 在 栈 之 中 了 。 所 以 ，a 不 可 能 在 b 之 前 被 弹出 。 
1.3.47 ”可 连接 的 队列 、 栈 或 stedque。 为 队列 、 栈 或 steque ( 请 见 练习 1.3.32 ) 添加 一 个 能 够 〈 破坏 性 地 ) 
连接 两 个 同类 对 象 的 额外 操作 catenation。 
1.3.48 ”双向 队列 与 栈 。 用 一 个 双向 队列 实现 两 个 栈 ， 保 证 每 个 栈 操 作 只 需要 常数 次 的 双向 队列 操作 ( 请 

见 练习 1.3.33 ) 。 
1.3.49 栈 与 队列 。 用 有 限 个 栈 实现 一 个 队列 ,保证 每 个 队列 操作 (在 最 坏 情 况 下 ) 都 只 需要 常数 次 的 

栈 操作 。 警 告 ， 非常 难 ! 
1.3.50 快速 出 错 的 迭代 器 。 修 改 Stack 的 迭代 器 代码 ， 确 保 一 旦 用 例 在 近代 器 中 (通过 pushO 

或 popO 〇 操作 ) 修改 集合 数据 就 抛 出 一 个 java.uti1.ConcurrentModificationException 异常 。 

解答 : 用 一 个 计数 器 记录 pushQ 和 popO) 操作 的 次 数 。 在 创建 迭代 器 时 ， 将 该 值 记 录 到 

Iterator 的 一 个 实例 变量 中 ,在 每 次 调用 hasNext() 和 next (0) 之 前 ,检查 该 值 是 否 发 生 了 变化 ， 

如 果 变 化 则 抛 出 异常 。 171 
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1.4 算法 分 析 
随 着 使 用 计算 机 的 经 验 的 增长 ， 人 们 在 使 用 计算 机 解决 困难 问题 或 是 处 理 大 量 数据 时 不 可 避免 
的 将 会 产生 这 样 的 疑问 : 


我 的 程序 会 运行 多 长 时 间 ? 
为 什么 我 的 程序 耗 尽 了 所 有 内 存 ? 

在 重建 某 个 音乐 或 照片 库 、 安 装 某 个 新 应 用 程序 、 编 辑 某 个 大 型 文档 或 是 处 理 一 大 批 实验 数据 
时 ， 你 肯定 也 问 过 自己 这 些 问 题 。 这 些 问题 太 模糊 了 ,我 们 无 法 准确 回答 一 一 答案 取决 于 许多 因素 ， 
比如 你 所 使 用 的 计算 机 的 性 能 、 被 处 理 的 数据 的 性 质 和 完成 任务 所 使 用 的 程序 (实现 了 某 种 算法 ) 。 
这 些 因素 都 会 产生 大 量 需 要 分 析 的 信息 。 

尽管 有 这 些 困难 ,你 在 本 节 中 将 会 看 到 , 为 这 些 基础 问题 给 出 实质 性 的 答案 有 时 其 实 非常 简单 。 
这 个 过 程 的 基础 是 科学 方法 , 它 是 科学 家 们 为 获取 自然 界 知识 所 使 用 的 一 系列 为 大 家 所 认同 的 方法 。 
我 们 将 会 使 用 数学 分 析 为 算法 成 本 建立 简洁 的 模型 并 使 用 实验 数据 验证 这 些 模型 。 


1.4.1 ”科学 方法 

科学 家 用 来 理解 自然 世界 的 方法 对 于 研究 计算 机 程序 的 运行 时 间 同 样 有 效 : 
口 细致 地 观察 真实 世界 的 特点 ， 通 常 还 要 有 精确 的 测量 ; 
口 根据 观察 结果 提出 假设 模型 ; 
口 根据 模型 预测 未 来 的 事件 ; 
口 继续 观察 并 核实 预测 的 准确 性 ; 
口 如 此 反复 直到 确认 预测 和 观察 一 致 。 

科学 方法 的 一 条 关键 原则 是 我 们 所 设计 的 实验 必须 是 可 重 现 的 ， 这 样 他 人 也 可 以 自己 验证 假设 
的 真实 性 。 所 有 的 假设 也 必须 是 可 证 伪 的 ， 这 样 我 们 才能 确认 某 个 假设 是 错误 的 〈 并 需要 修正 ) 。 
正如 爱 因 斯 坦 的 一 句 名 言 所 说 : “再 多 的 实验 也 不 一 定 能 够 证 明 我 是 对 的 ， 但 只 需要 一 个 实验 就 能 
证 明 我 是 错 的 。” 我 们 永远 也 没 法 知道 某 个 假设 是 否 绝 对 正确 ， 我 们 只 能 验证 它 和 我 们 的 观察 的 一 
致 性 。 


1.4.2 ”观察 

我 们 的 第 一 个 挑 万 是 决定 如 何 定量 测量 程序 的 运行 时 间 。 在 这 里 这 个 任务 比 自然 科学 中 的 要 简 
单 得 多 。 我 们 不 需要 向 火星 发 射 火箭 或 者 牺牲 一 些 实验 室 的 小 动物 或 是 分 裂 某 个 原子 一 一 只 需要 运 
行程 序 即 可 。 事 实 上 ， 每 次 运行 程序 都 是 在 进行 一 次 科学 实验 ， 将 这 个 程序 和 自然 世界 联系 起 来 并 
回答 我 们 的 一 个 核心 问题 : 我 的 程序 会 运行 多 长 时 间 ? 

我 们 对 大 多 数 程序 的 第 一 个 定量 观察 就 是 计算 性 任务 的 困难 程度 可 以 用 问题 的 规模 来 衡量 。 一 
般 来 说 ， 问 题 的 规模 可 以 是 输入 的 大 小 或 是 某 个 命令 行 参数 的 值 。 根 据 直 觉 ， 程 序 的 运行 时 间 应 该 
随 着 问题 规模 的 增长 而 变 长 ， 但 我 们 每 次 在 开发 和 运行 一 个 程序 时 想 问 的 问题 都 是 运行 时 间 的 增长 
有 多 快 。 
从 许多 程序 中 得 到 的 另 一 个 定量 观察 是 运行 时 间 和 输入 本 身 相 对 无 关 , 它 主要 取决 于 问题 规模 。 
如 果 这 个 关系 不 成 立 ， 我 们 就 需要 进行 一 些 实验 来 更 好 地 理解 并 更 好 地 控制 运行 时 间 对 输入 的 敏感 
度 。 但 这 个 关系 常常 是 成 立 的 ， 因 此 我 们 现在 来 重点 研究 如 何 更 好 地 将 问题 规模 和 运行 时 间 的 关系 
量化 。 
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1.4.2.1 举例 public class ThreeSum 
右 侧 的 ThreeSum 程序 是 一 个 可 运行 { a es 
= Si 、 public static int count(in a 
的 示例 。 它 会 统计 一 个 文件 中 所 有 和 为 0 { ”// 统计 和 为 0 的 元 组 的 数量 
的 三 整数 元 组 的 数量 ( 假设 整数 不 会 溢出 )。 人 
这 种 计算 可 能 看 起 来 有 些 不 自然 ， 但 其 实 for (Cint i = 0; 1 < N; i++) 
NN | zu、 | 全 fun = < Ne 
它 和 许多 基础 计算 性 任务 都 有 着 深刻 的 联 1 
系 (例如 ， 请 见 练习 1.4.26 ) 。 作 为 测试 if (a[i] + arj] + a[k] == 0) 
A a . t++; 
输入 ,我 们 使 用 的 是 本 书 网 站 上 的 1Mints. ee 
txt 文件 。 它 含有 100 万 个 随机 生成 的 int } 
值 。 1Mints .txt 中 的 第 二 个 、 第 八 个 和 第 和 static void main(String[] args) 
十 个 元 组 的 和 均 为 0。 文件 中 还 有 多 少 组 int[] a = In.readInts(args[0]); 
这 样 的 数据 ? ThreeSum 能 够 告诉 我 们 答 Stdout.printlnCcount(a) ) ; 
案 ， 但 它 所 需 的 时 间 可 以 接受 吗 ? 问题 的 } 
请- 4 pa i 一 一 一 一 
NT ps TT 对 于 给 定 的 N， 这 段 程序 需要 运行 多 长 时 间 173 
系 ? 我 们 的 第 一 个 实验 就 是 在 计算 机 上 运 本 ee 
2 一 > y % 上 下 
行 ThreeSum 并 处 理 本 书 网 站 上 的 1Kints. oa MPEGSU DN MNS 
txt、2Kints.txt、4Kints.txt 和 8Kints.txt 文 es 
件 ， 它 们 分 别 含 有 1Mints.txt 中 的 1000、 
2000、4000 和 8000 个 整数 。 你 可 以 很 快 70 
得 到 这 样 的 整数 元 组 在 1Kints.txt 中 共有 % java ThreeSum 2Kints .txt 
70 组 ,在 2Kints.txt 中 共有 528 组 ,如 图 1.4.1 济 答 注 答 注 答 消 答 济 答 消 答 注 答 消 答 
所 示 。 这 个 程序 需要 用 比 之 前 长 得 多 的 时 rer lobeab 
间 得 到 在 4Kints.txt 中 共有 4039 
5 
» 人 玉 AAA 人 
组 和 为 0 的 整数 。 在 等 待 它 处 % more 1Mints.txt % java ThreeSum 4Kints.txt 
理 8Kints.txt 的 时 候 ， 你 会 发 现 324110 滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
-442472 滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
你 在 问 自己 : “我 的 程序 还 要 626686 闹 答 滴答 滴答 滴答 滴答 滴答 滴答 滴 答 
运行 多 久 ? ”你 会 看 到 , 对 于 时 het th theta hae 
这 个 程序 ， 回 答 这 个 问题 很 简 123414 tan a 
调 合 il 引 合 1 问 合 1 闫 合 们 合 
单 。 实 际 上 ， 你 常常 能 在 程序 67 滴答 泣 答 泣 答 滴答 
x a 155091 滴答 泣 4 测 答 滴答 泣 答 
运行 的 时 候 就 给 出 一 个 较为 准 129801 漳 答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
确 的 预测 。 2 te ae 
1422 计 乓 滴答 泣 4 注 答 泣 答 
计时 器 686904 滴答 消 消 答 请 答 
准确 测量 给 定 程序 的 确切 -247109 滴答 滴答 注 答 滴答 滴答 滴答 
NE A , 77867 滴答 滴答 滴答 滴 尚 答 痪 答 滴答 
运行 时 间 是 很 困难 的 。 不 过 幸 982455 清和 pn 
运 的 是 我 们 一 般 只 需要 近似 值 -210707 et hohe 
- EN -922943 光良 和 和 
就 可 以 了 。 我 们 希望 能 够 把 需 -738817 扩 J ene 
要 几 秒 钟 或 者 几 分 钟 就 能 完成 es 清和 人 
和 滴答 滴答 滴答 滴 委 答 泣 答 
的 程序 和 需要 几 天 、 几 个 月 其 人 消 答 消 答 消 答 消 答 消 答 滴答 注 算 消 答 
至 更 长 时 间 才 能 完成 的 程序 区 


别 开 来 ， 而 且 我 们 希望 知道 对 图 1.4.1 ”记录 一 个 程序 的 运行 时 间 
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于 同一 个 任务 某 个 程序 是 不 是 比 男 一 个 程序 快 一 倍 。 因 此 ， 我 们 仍然 需要 准确 的 测量 手段 来 生成 实 
验 数据 , 并 根据 它们 得 出 并 验证 关于 程序 的 运行 时 间 和 问题 规模 的 假设 。 为 此 , 我 们 使 用 了 如 表 1.4.1 
所 示 的 Stopwatch 数据 类 型 。 它 的 elapsedTime() 方法 能 够 返回 自 它 创建 以 来 所 经 过 的 时 间 ， 以 
秒 为 单位 。 它 的 实现 基于 Java 系统 的 currentTimeMi11is() 方法 ， 该 方法 能 够 返回 以 毫秒 记 数 的 
当前 时 间 。 它 在 构造 函数 中 保存 了 当前 时 间 ， 并 在 elapsedTime() 方法 被 调用 时 再 次 调用 该 方法 


来 计算 得 到 对 象 创建 以 来 经 过 的 时 间 。 
表 1.4.1 一 种 表示 计时 器 的 抽象 数据 类 型 


API public class Stopwatch 


Stopwatch() 创建 一 个 计时 器 
double elapseTime() 返回 对 象 创建 以 来 所 经 过 的 时 间 
典型 用 例 public static void main(String[] args) 
{ 


int N = Integer.parseInt(args[0]); 
int[] a = new int[N]; 
Ont = 0 1 < ON ET) 
a[i] = StdRandom.uniform(-1000000,，1000000); 
Stopwatch timer = new Stopwatch() ; 
int cnt = ThreeSum.count(a); 
double time = timer.elapsedTime() ; 
StdOut.printin(cnt + " triples ”+ time + " seconds"); 


使 用 方法 % java Stopwatch 1000 
51 triples 0.488 seconds 
% java Stopwatch 2000 
516 triples 3.855 seconds 


数据 类 型 的 实现 public class Stopwatch 
{ 
private final long start; 
public Stopwatch() 
{ start = System.currentTimeMillis(); } 
public double elapsedTime©O 
{ 
long now = System.currentTimeMillisQO); 
return (now - start) / 1000.0; 
} 
} 


1.4.2.3 ”实验 数据 的 分 析 


DoublingTest 是 Stopwatch 的 一 个 更 加 复杂 的 用 例 ， 并 能 够 为 ThreeSum 产生 实验 数据 。 它 会 生 


成 一 系列 随机 输入 数组 ， 在 每 一 步 中 将 数组 长 度 加 倍 ， 并 打印 出 ThreeSum.count() 处 理 每 种 输入 规 


模 所 需 的 运行 时 间 。 这 些 实验 显然 是 可 重 现 的 一 一 你 也 可 以 在 自己 的 计算 机 上 运行 它们 , 多 少 次 都 行 
在 运行 DoublingTest 时 ， 你 会 发 现 自 己 进 入 了 一 个 “预测 一 验证 ”的 循环 : 它 会 快速 打印 出 几 行 数据 


o 


?3 
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晶 随 即 慢 了 下 来 。 每 当 它 打印 出 一 行 结果 时 ， 你 都 会 开始 琢磨 它 还 需要 多 久 才能 打出 下 一 行 。 当 然 ， 
因为 大 家 使 用 的 计算 机 不 同 ， 你 得 到 的 实际 运行 时 间 很 可 能 和 我 们 的 计算 机 得 到 的 不 一 样 。 事 实 上 ， 
如 果 你 的 计算 机 比 我 们 的 快 一 倍 ， 你 所 得 到 的 运行 时 间 应 该 大 致 是 我 们 所 得 到 的 一 半 。 由 此 我 们 马上 
可 以 得 出 一 条 有 说 服 力 的 猜想 : 程序 在 不 同 的 计算 机 上 的 运行 时 间 之 比 通常 是 一 个 常数 。 尽 管 如 此 ， 
你 还 是 会 提出 更 详细 的 问题 ， 作 为 问题 规模 的 一 个 函数 ， 我 的 程序 的 运行 时 间 是 多 久 ? 为 了 帮助 你 回 
管 这 个 问题 ， 我 们 来 将 数据 绘制 成 图 表 。 图 1.4.2 就 是 产生 结果 ， 使 用 的 分 别 是 标准 比例 尺 和 对 数 比 
例 尺 。 其 中 x 轴 表 示 N,y 轴 表 示 程 序 的 运行 时 间 TWV)。 由 对 数 的 图 像 我 们 立即 可 以 得 到 一 个 关于 运 
行 时 间 的 猜想 一 一 因为 数据 和 斜率 为 3 的 直线 完全 吻合 。 该 直线 的 公式 为 ( 其 中 a 为 常数 ) : 


lg(T(N))= 3 lgeN+ lga 


TIN)=aNV 
这 就 是 我 们 想 要 的 运行 时 间 关 于 输入 规模 N 的 函数 。 我 们 可 以 用 其 中 一 个 数据 点 来 解 出 a 的 
值 一 一 例如 ，7T(8000)= a8000”， 可 得 a = 9.98 x 10… 一 一 因此 我 们 就 可 以 用 以 下 公式 预测 N 值 较 大 
时 程序 的 运行 时 间 : 


T(N)=9.98x10° NV 


我 们 可 以 根据 对 数 图 像 中 的 数据 点 距离 这 条 直线 的 远近 来 不 严格 地 检验 这 条 假设 。 一 些 统计 学 
方法 可 以 帮助 我 们 更 加 仔细 地 分 析出 a 和 指数 b 的 近似 值 ， 但 我 们 的 快速 计算 已 经 足以 在 大 多 数 情 
况 下 估计 出 程序 的 运行 时 间 。 例 如 ， 我 们 预计 ， 在 我 们 的 计算 机 上 ， 当 N=16000 时 程序 的 运行 时 间 
约 为 9.98 x 10"” x 16000:=408.8 秒 ， 也 就 是 约 6.8 分 钟 (实际 时 间 为 409.3 秒 ) 。 在 等 待 计算 机 得 出 
DoublingTest 在 N=16000 的 实验 数据 时 ， 也 可 以 用 这 个 方法 来 预测 它 何 时 将 会 结束 ， 然 后 等 符 并 验 


证 你 的 结果 是 否 正 而 


O 


实验 程序 实验 结果 
public class DoublingTest % java DoublingTest 

{ 25000 O30 

public static double timeTrial(int N) S00 0 

{ // 为 处 理 N 个 随机 的 六 位 整数 的 ThreeSum.count() 计时 10000 OR 

int MAX = 1000000; 20000 088 

int[] a = new int[N]; 4000 6.4 

Sul 


oP mt = 0 < NE 8000 
a[i] = StdRandom.uniform(-MAX, MAX); 
Stopwatch timer = new Stopwatch() ; 
int cnt = ThreeSum.count(a); 
return timer.elapsedTime() ; 
} 
public static void main(String[] args) 
{ // 打印 运行 时 间 的 表格 
for (int N = 250; true; N += N) 
{ // 打印 问题 规模 为 N 时 程序 的 用 时 
double time = timeTrial(N); 
SudOue pornne rN Ne nmed 
} 
} 
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标准 图 像 ”50 - 对 数 图 像 51.2 
了 25.6 
40 了 12 .8 于 
全 6.4- 
吕 30 了 S 35.2 可 
对 J 马 1.6 
到 20 1. .8 
了 .4 了 
10 二 .2 二 
村 二 

下 T T T T T i 

1K 2K 4K 8K 1K 2K 4K 8K 
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图 1.4.2 ”实验 数据 (ThreeSum.count() 的 运行 时 间 ) 的 分 析 


到 现在 为 止 ， 这 个 过 程 和 科学 家 们 在 尝试 理解 真实 世界 的 奥秘 时 进行 的 过 程 完全 相同 。 对 数 图 
像 中 的 直线 等 价 于 我 们 对 数据 符合 公式 TON)=aN" 的 猜想 。 这 种 公式 被 称 为 容 次 法 则 。 许 多 自然 和 
人 工 的 现象 都 符合 竹 次 法 则 ， 因 此 假设 程序 的 运行 时 间 符 合 罕 次 法 则 也 是 合情合理 的 。 事 实 上 ， 对 
于 算法 的 分 析 , 我 们 有 许多 数学 模型 强烈 支持 这 种 函数 和 其 他 类 似 的 假设 , 我 们 现在 就 来 学 习 它 们 。 


1.4.3 ”数学 模型 

在 计算 机 科学 的 早期 ，D. E. Knuth 认为 ， 尽 管 有 许多 复杂 的 因素 影响 着 我 们 对 程序 的 运行 时 间 
的 理解 ， 原 则 上 我 们 仍然 可 能 构造 出 一 个 数学 模型 来 描述 任意 程序 的 运行 时 间 。Knuth 的 基本 见地 
很 简单 一 个 程序 运行 的 总 时 间 主 要 和 两 点 有 关 : 
口 执行 每 条 语句 的 耗 时 ; 
口 执行 每 条 语句 的 频率 。 

前 者 取决 于 计算 机 、Java 编译 器 和 操作 系统 ， 后 者 取决 于 程序 本 身 和 输入 。 如 果 对 于 程序 的 所 
有 部 分 我 们 都 知道 了 这 些 性 质 ， 可 以 将 它们 相 乘 并 将 程序 中 所 有 指令 的 成 本 相 加 得 到 总 运行 时 间 。 

第 一 个 挑战 是 判定 语句 的 执行 频率 。 有 些 语句 的 分 析 很 容易 : 例如 ，ThreeSum.count() 中 将 
cnt 的 值 设 为 0 的 语句 只 会 执行 一 次 。 有 些 则 需要 深入 分 析 : 例如 ，ThreeSum.count() 中 的 if 
语句 会 执行 NV-1)(N-2)/6 次 (从 输入 数组 中 能 够 取得 的 三 个 不 同 整数 的 数量 一 一 请 见 练习 1.4.1 ) 。 
其 他 则 取决 于 输入 数据 ， 例 如 ，ThreeSum.count() 中 的 指令 cnt++ 执行 的 次 数 为 输入 中 和 为 0 的 
整数 三 元 组 的 数量 ， 这 可 能 是 0 也 可 能 是 任意 值 。 对 于 DoublingTest 的 情况 ,输入 值 是 随机 产生 的 ， 
我 们 可 以 用 概率 分 析 得 到 该 值 的 期 望 ( 请 见 练习 1.4.40 ) 。 
1.4.3.1 近似 

这 种 频率 分 析 可 能 会 产生 复杂 宛 长 的 数学 表达 式 。 例 如 ， 刚 才 我 们 所 讨论 的 ThreeSum 中 的 if 
语句 的 执行 次 数 为 : 


NUV-1)(CV-2)/6=NV76-NV2+M3 
一 般 在 这 种 表达 式 中 ， 首 项 之 后 的 其 他 项 都 相对 较 小 (例如 ， 当 和 N=1000 时 ，-NV72+M3 = 499 667， 
相对 于 N36 = 166 666 667 就 小 得 多 了 ) ， 如 图 1.4.3 所 示 。 我 们 常常 使 用 约 等 于 号 (~ ) 来 忽略 
较 小 的 项 ， 从 而 大 大 简化 我 们 所 处 理 的 数学 公式 。 该 符号 使 我 们 能 够 用 近似 的 方式 忽略 公式 中 那 


所 
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E 非 常 复杂 但 短 次 较 低 ， 且 对 最 终结 果 的 贡献 无 关 紧要 的 项 : 


定义 。 我 们 用 ~AN) 表示 所 有 随 着 入 的 增 大 除 以 有 N) 的 结果 趋 近 于 1 的 函数 。 我 们 用 g(N) ~ 


tN) 表示 g(N)/fN) 随 着 NN 的 增 大 趋 近 于 1。 


例如 ， 我 们 用 ~N3/6 表示 ThreeSum 中 的 
诈 语 句 的 执行 次 数 ， 因 为 N/6-N/2+N/3 除 
以 NV6 的 结果 随 着 N 的 增 大 趋向 于 1。 一般 
我 们 用 到 的 近似 方式 都 是 g(N) ~ afN)， 其 中 
ftN)=N"(logN)， 其 中 a、b 和 c 均 为 常数 。 我 
们 将 /NV) 称 为 e(N) 的 增长 的 数量 级 ( 如 表 1.4.2 
所 示 ) 。 我 们 一 般 不 会 指定 底数 ， 因 为 常数 a 
能 够 弥补 这 些 细节 。 这 种 形式 的 函数 覆盖 了 我 
们 在 对 程序 运行 时 间 的 研究 中 经 常 遇 到 的 几 
种 函数 , 如 表 1.4.3 所 示 ( 指数 级 别 是 一 个 例外 ， 
我 们 会 在 第 6 章 中 讲 到 ) 。 我 们 会 详细 说 明 这 
几 种 函数 并 在 处 理 完 ThreeSum 之 后 简要 讨论 
为 什么 它们 会 出 现在 算法 分 析 领 域 之 中 。 
1.4.3.2 ”近似 运行 时 间 

按照 Knuth 的 方法 ， 要 得 到 一 个 Java 程 
序 的 总 运行 时 间 的 数学 表达 式 ，( 原则 上 ) 
我 们 需要 研究 我 们 的 Java 编译 器 来 找 出 每 条 
Java 指令 所 对 应 的 机 器 指令 数 ， 并 根据 我 们 
的 计算 机 的 指令 规范 得 到 每 条 机 器 指令 的 运 
行 时 间 ， 然 后 才能 得 到 一 个 总 运行 时 间 。 对 于 
ThreeSum， 这 个 时 间 的 大 臻 总结 如 表 1.4.4 所 
示 。 我们 根据 执行 的 频率 将 Java 的 语句 分 块 ， 
计算 出 每 种 频率 的 首 项 近似 ， 判定 每 条 指令 的 
执行 成 本 并 计算 出 总 和 。 请 注意 ， 某 些 执 行 频 
率 可 能 会 依赖 于 输入 。 在 本 例 中 ，cnt++ 的 执 
行 次 数 显然 就 是 依赖 于 输入 的 一 一 它 就 是 和 


NAN 


166 666 667 NOVC_DOV2J/6 


167 000 


N= 1 000 


图 1.4.3 首 项 近似 


表 1.4.2 ”典型 的 近似 


函 数 近 似 增长 的 数量 级 
N2/6-N272+M3 ~N3/6 N 
N2/2-M2 ~V2/2 N? 
lgN+l ~leN leN 
3 ~3 1 


表 1.4.3 常见 的 增长 数量 级 函数 


增长 的 数量 级 

描 述 函 数 
常数 级 只 1 
对 数 级 别 logN 
线性 级 别 N 
线性 对 数 级 别 NlogN 
平方 级 办 NM 
立方 级 别 VN 
指数 级 多 2 


为 0 的 整数 三 元 组 的 数量 ， 范 围 在 0 到 ~ Ni6 之 间 。 通 过 用 常数 如 、ti、b… 表 示 各 个 代码 块 的 执行 
时 间 ， 我 们 假设 每 个 Java 代码 块 所 对 应 的 机 器 指 令 集 所 需 的 执行 时 间 都 是 固定 的 。 除 此 之 外 ， 我 们 
基本 不 会 涉及 任何 特定 系统 的 细节 ( 这 些 常 数 的 值 ) 。 从 这 里 我 们 观察 到 的 一 个 关键 现象 是 执行 最 


频繁 的 指令 决定 了 程序 执行 的 总 时 间 


我 们 将 这 些 指令 称 为 程序 的 内 循环 。 对 于 ThreeSum 来 说 ， 


它 的 内 循环 是 将 k 加 1、 判断 它 是 否 小 于 N 以 及 判断 给 定 的 三 个 整数 之 和 是 否 为 0 的 语句 (也许 还 
包括 记 数 的 语句 ， 不 过 这 取决 于 输入 ) 。 这 种 情况 是 很 典型 的 : 许多 程序 的 运行 时 间 都 只 取决 于 其 


中 的 一 小 部 分 指令 。 
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1.4.3.3 ”对 增长 数量 级 的 猜想 
总 之 ，1.4.2.3 节 中 的 实验 和 表 1.4.4 中 的 数学 模型 都 支持 以 下 猜想 : 


性 质 A。ThreeSum (在 个 数 中 找 出 三 个 和 为 0 的 整数 元 组 的 数量 ) 的 运行 时 间 的 增长 数量 级 


Ve 


例证 。 设 T(N) 为 ThreeSum 处 理 入 个 整数 的 运行 时 间 。 
aN ， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 在 许多 计算 机 上 完成 的 实验 ( 包括 你 我 的 计算 机 ) 


都 验证 了 这 个 近似 。 


根据 前 文 所 述 的 数学 模型 有 T(N) ~ 


在 本 书 中 ， 我 们 使 
的 最 终结 果 完 全 相同 
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形 下 才 需 要 由 专家 来 完成 。 


其 


一 


的 运行 时 间 是 ~ aV ， 


public class ThreeSum 


public static int count(int[] a) 


性 质 表示 需要 用 实验 验证 的 猜想 。 数 学 分 析 的 最 终结 果 和 我 们 的 实验 分 析 
ThreeSum 
次 吻合 既 验 证 了 实验 结果 和 数学 模型 
和 的 指数 。 稍 加 努力 ， 我 们 就 能 确 


中 常数 a 取决 于 计算 机 的 具体 型 号 。 


这 


9， 也 揭示 了 该 程序 的 更 多 性 质 ， 因 为 我 们 不 需要 实验 就 能 确定 
定 某 个 特定 系统 上 的 a 的 值 ， 不 过 这 一 般 都 只 在 有 性 能 压力 的 情 


{ 
A 一 一 ~|int N = a.length; 


下 和 全 .二 站 委 , 习 : 


for (Cint 1 = 0;|i < Ni i++l) 二 
for (Cint j = i+1l;|j < N; j++|) aN 执 
隔 
句 C for Cint k = j+1;[k < N; k++|) -Ny2 频 
块 D if (Ca[i] + arj] + ark] == 0) HH 一 ~NY6 率 
E Cnt++; x 
return cnt; ~ 
public static void main(String[] args) 
内 循环 
int[] a = In.readIints(args[0]); 
Stdout .printlnCcount(a) ) ; 
} 
图 1.4.4 程序 语句 执行 频率 的 分 析 
表 1.4.4 程序 运行 时 间 的 分 析 〈 示 例 ) 
语 句 块 运行 时 间 (以 秒 记 ) 频 率 总 时 间 
E to xX (取决 于 输入 ) I 
D 站 N36 — NY2 + N/3 ti (N36 — NY2 + N/3) 
C 在 N22-M2 六 (272 - N/2) 
B h N hbN 
A 源 1 t 
(1/6)N’ 
i + (4/2-1/2)N’ 
总 时 间 + (03 -22 二 为 ) N 
十 站 十 丰 充 
近似 ~(416) N3 (假设 x 很 小 ) 
181 增长 的 数量 级 N’ 
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1.4.3.4 ”算法 的 分 析 

类 似 于 性 质 A 的 猜想 的 意义 很 重要 ， 因 为 它们 将 抽象 世界 中 的 一 个 Java 程序 和 真实 世界 中 
行 它 的 一 台 计 算 机 联系 了 起 来 。 增 长 数量 级 概念 的 应 用 使 我 们 能 够 继续 向 前 迈进 一 步 : 将 程 
和 它 实 现 的 算法 隔离 开 来 。ThreeSum 的 运行 时 间 的 增长 数量 级 是 N， 这 与 它 是 由 Java 实现 
或 是 它 运 行 在 你 的 笔记 本 电脑 上 或 是 某 人 的 手机 上 或 是 一 台 超 级 计算 机 上 无 关 。 决 定 这 一 点 的 
主要 因素 是 它 需 要 检查 输入 中 任意 三 个 整数 的 所 有 可 能 组 合 。 你 所 使 用 的 算法 (有 了 时 还 要 算 上 
输入 模型 ) 决 定 了 增长 的 数量 级 。 将 算法 和 某 台 计算 机 上 的 具体 实现 分 离开 来 是 一 个 强大 的 概念 ， 
因为 这 使 我 们 对 算法 性 能 的 知识 可 以 应 用 于 任何 计算 机 。 例 如 ， 我 们 可 以 说 ThreeSum 是 暴力 算 
法 “计算 所 有 不 同 的 整数 三 元 组 的 和 ， 统 计 和 为 0 的 组 数 ” 的 一 种 实现 ， 可 以 预料 的 是 在 任何 
计算 机 上 使 用 任何 语言 对 该 算法 的 实现 所 需 的 运行 时 间 都 是 和 成 正比 的 。 实 际 上 ， 经 典 算法 
的 性 能 理论 大 部 分 都 发 表 于 数 十 年 前 ， 但 它们 仍然 适用 于 今天 的 计算 机 。 

1.4.3.5 ”成 本 模型 

我 们 使 用 了 一 个 成 本 模型 来 评估 算法 的 性 质 。 


时 水 用 证 


这 个 模型 定义 了 我 们 所 研究 的 算法 中 的 基本 操作 。 3-sum 的 成 本 模型 。 在 研究 解决 

例如 ， 适 合 于 右 侧 所 示 的 3-sum 问题 的 成 本 模型 是 3-sum 问题 的 算法 时 ， 我 们 记录 的 

我 们 访问 数组 元 素 的 次 数 。 是 数组 的 访问 次 数 (访问 数组 元 素 
在 这 个 成 本 模型 之 下 ， 我 们 可 以 用 精确 的 数学 的 次 数 ， 无 论 读 写 ) 。 


语言 说 明 算法 而 非 某 个 特定 实现 的 性 质 ， 如 下 : 


命题 B。3-sum 的 暴力 算法 使 用 了 ~ N2/2 次 数组 访问 来 计算 W 个 整数 中 和 为 0 的 整数 三 元 组 
的 数量 。 


证 明 。 该 算法 访问 了 ~NY6 个 整数 三 元 组 中 的 所 有 3 个 整数 。 


我 们 使 用 术语 命题 来 表示 在 某 个 成 本 模型 下 算法 的 数学 性 质 。 在 全 书 中 我 们 都 会 使 用 某 个 
确定 的 成 本 模型 研究 所 讨论 的 算法 。 我 们 和 希望 通过 明确 成 本 模型 使 给 定 实现 所 需 的 运行 时 间 的 
增长 数量 级 和 它 背 后 的 算法 的 成 本 的 增长 数量 级 相同 〈 换 名 话说 ， 成 本 模型 应 该 和 内 循环 中 的 
操作 相关 ) 。 我 们 会 研究 算法 准确 的 数学 性 质 (命题 ) 并 对 实现 的 性 能 作出 猜想 ( 性质) ， 可 
以 通过 实验 验证 这 些 猜 想 。 在 本 例 中 ,命题 B 的 数学 结论 支持 了 性 质 A 中 由 科学 方法 得 到 并 由 
实验 验证 过 的 猜想 。 
1.4.3.6 ”总 结 
对 于 大 多 数 程序 ， 得 到 其 运行 时 间 的 数学 模型 所 需 的 步 又 如 下 : 
口 确定 输入 模型 ， 定 义 问 题 的 规模 ; 
口 识别 内 循环 ; 
口 根据 内 循环 中 的 操作 确定 成 本 模型 ; 
口 对 于 给 定 的 输入 ， 判 断 这 些 操作 的 执行 频率 。 这 可 能 需要 进行 数学 分 析 一 一 我 们 在 本 书 
中 会 在 学 习 具 体 的 算法 时 给 出 一 些 例子 。 
如 果 一 个 程序 含有 多 个 方法 ， 我 们 一 般 会 分 别 讨论 它们 ， 例 如 我 们 在 1.1 节 中 见 过 的 示例 程 
序 BinarySearch。 
二 分 查找 。 它 的 输入 模型 是 大 小 为 N 的 数组 a[] ， 内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 
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成 本 模型 是 比较 操作 ( 比较 两 个 数组 元 素 的 值 ) 。3.1 节 中 的 命题 B 详细 完整 地 给 出 了 1.1 节 中 讨 

论 的 内 容 ， 该 命题 说 明 它 所 需 的 比较 次 数 最 多 为 lgN+1。 

白 名 单 。 它 的 输入 模型 是 白 名 单 的 大 小 和 N 和 由 标准 输入 得 到 的 M 个 整数 ， 且 我 们 假设 M>>N， 

内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 成 本 模型 是 比较 操作 ( 承 自 二 分 查找 ) 。 由 二 分 查找 的 分 

析 我 们 可 以 立即 得 到 对 白 名 单 问题 的 分 析 一 一 比较 次 数 最 多 为 M(lgN+1)。 

根据 以 下 因素 我 们 可 以 知道 ， 白 名 单 问题 计算 所 需 时 间 的 增长 数量 级 最 多 为 MlgN: 

口 如 果 NN 很 小 , 输入 一 输出 可 能 会 成 为 主要 成 本 。 

口 比较 的 次 数 取决 于 输入 一 一 在 ~ M 和 ~ MigN 之 间 ， 取 决 于 标准 输入 中 有 多 少 个 整数 在 白 名 

单 中 以 及 二 分 查找 需要 多 久 才 能 找 出 它们 (一 般 来 说 为 ~ MlgN ) 。 

口 我 们 假设 Arrays .sortQ 的 成 本 远 小 于 MlgN。Arrays.sort() 使 用 的 是 2.2 节 中 的 归并 
排序 算法 。 我 们 会 看 到 归并 排序 的 运行 时 间 的 增长 数量 级 为 NogN ( 请 见 第 2 章 的 命题 G ) ， 
因此 这 个 假设 是 合理 的 。 

因此 ， 该 模型 支持 了 我 们 在 1.1 节 中 作出 的 假设 ， 即 当 M 和 很 大 时 二 分 查找 算法 也 能 够 完成 

计算 。 如 果 我 们 将 标准 输入 流 的 长 度 加 倍 ， 可 以 预计 的 是 运行 时 间 也 将 加 倍 ; 如 果 我 们 将 白 名 单 的 

大 小 加 倍 ， 可 以 预计 的 是 运行 时 间 只 会 和 消 有 增加 。 

在 算法 分 析 中 进行 数学 建 模 是 一 个 多 产 的 研究 领域 ， 但 它 多 少 超出 了 本 书 的 范畴 。 通 过 二 分 查 

184| 找 、 归 并 排序 和 其 他 许多 算法 你 仍 会 看 到 ， 理 解 特定 的 数学 模型 对 于 理解 基础 算法 的 运行 效率 是 很 

关键 的 ， 因 此 我 们 常常 会 详细 地 证 明 它 们 或 是 引用 经 典 研 究 中 的 结论 。 在 其 中 ， 我 们 会 遇 到 各 种 数 
学 分 析 中 广泛 使 用 的 函数 和 近似 函数 。 作 为 参考 ， 我 们 分 别 在 表 1.4.5 和 表 1.4.6 中 对 它们 的 部 分 信 
息 进行 了 总 结 。 


表 1.4.5 算法 分 析 中 的 常见 函数 


描 ” 述 记 号 定 义 
可 下 取 整 ( floor ) Lx] 不 大 于 x 的 最 大 整数 
可 上 取 整 ( ceiling ) [x] 不 小 于 x 的 最 小 整数 
自然 对 数 InN log.N(e=N) 
以 2 为 底 的 对 数 lgN log;N(2°=N) 
yp 入 应 的 束 刑 对 六 不 大 于 leN 的 最 大 整数 
以 2 为 底 的 整 型 对 数 LlgN] (N 的 二 进 制 表示 的 位 数 ) ~ 1 
调和 级 数 Hy 1+1/2+1/3+1/4+…+1/N 
阶乘 Nl! 1x2x3x4x.…xN 

表 1.4.6 算法 分 析 中 常用 的 近似 函数 

描 述 近似 函数 
调和 级 数 求 和 Hy=1+1/2+1/3+1/4+…+l/N ~ InN 
等 差 数列 求 和 1+2+3+4+…+N ~ N32 
等 比 数列 求 和 1+2+4+8+…+N=2N-1 ~ 2N， 其 中 N=2" 
斯 特 灵 公式 lgMI=lg1+lg2+lg3+lg4+…+lgNM ~ NlgN 

N 

二 项 式 系数 国 ~ NWk!， 其 中 上 为 小 常数 
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1.4.4 ”增长 数量 级 的 分 类 

我 们 在 实现 算法 时 使 用 了 几 种 结构 性 的 原 语 ( 普通 语句 、 条 件 语句 、 循 环 、 向 套 语句 和 方法 调 
用 ) ， 所 以 成 本 增长 的 数量 级 一 般 都 是 问题 规模 NN 的 若干 函数 之 一 。 表 1.4.7 总 结 了 这 些 函 数 以 及 
它们 的 称谓 、 与 之 对 应 的 典型 代码 以 及 一 些 例子 。 


表 1.4.7 对 增长 数量 级 的 常见 假设 的 总 结 


描 述 增长 的 数量 级 典型 的 代码 说 明 举 例 
常数 级 别 1 a=b+ci 普通 语句 ”将 两 个 数 相 加 
对 数 级 别 logN (请 见 1.1.10.2 节 ， 二 分 查找 ) 二 分 策略 ”二 分 查找 

double max = a[0]; 
线性 级 别 N for (int i = 1; i < N; i++) 循环 找 出 最 大 元 素 


if (a[i] > max) max = ari]; 


线性 对 数 级 别 。 ”Nlog N 【请 见 算法 2.4] 分 治 归并 排序 


for Cint i = 0; i < N; i++) 
平方 级 别 PP 人 双 层 循环 检查 所 有 元 素 对 


Cnt++ ; 


for Cint i = 0; i < N; i++) 
for (int j = i+l; j < N; j++) 


no . for Cint k = j+1; k < N; k++) 三 层 循环 检查 所 有 三 元 组 
if (a[i] + a[j] + a[k] == 0) 
Cnt++; 
| 2" (请 见 第 6 章 ) 穷 举 查 找 ”检查 所 有 子 集 


1.4.4.1 ”常数 级 别 

运行 时 间 的 增长 数量 级 为 常数 的 程序 完成 它 的 任务 所 和 需 的 操作 次 数 一 定 ， 因 此 它 的 运行 时 间 不 
依赖 于 N。 大 多 数 的 Java 操作 所 需 的 时 间 均 为 常数 。 
1.4.4.2 ”对 数 级 别 

运行 时 间 的 增长 数量 级 为 对 数 的 程序 仅 比 常数 时 间 的 程序 稍 慢 。 运 行 时 间 和 问题 规模 成 对 数 关 
系 的 程序 的 经 典 例子 就 是 二 分 查找 ( 请 见 1.1.10.2 节 的 BinarySearch ) 。 对 数 的 底数 和 增长 的 数量 
级 无 关 ( 因为 不 同 的 底数 仅 相 当 于 一 个 常数 因子 ) ， 所 以 我 们 在 说 明 对 数 级 别 时 一 般 使 用 logN。 
1.4.4.3 ”线性 级 别 
使 用 常数 时 间 人 处 理 输入 数据 中 的 所 有 元 素 或 是 基于 单个 for 循环 的 程序 是 十 分 常见 的 。 此 类 程 
序 的 增长 数量 级 是 线性 的 一 一 它 的 运行 时 间 入 成 正比 。 
1.4.4.4 ”线性 对 数 级 别 

我 们 用 线性 对 数 描述 运行 时 间 和 问题 规模 N 的 关系 为 MogX 的 程序 。 和 之 前 一 样 ， 对 数 的 底数 
和 增长 的 数量 级 无 关 。, 线性 对 数 算法 的 典型 例子 是 Merge.sort( 请 见 算法 2.4) 和 Quick.sortO (请 
见 算法 2.5 ) 。 
1.4.4.5 ”平方 级 别 

一 个 运行 时 间 的 增长 数量 级 为 N 的 程序 一 般 都 含有 两 个 能 套 的 for 循环 ， 对 由 V 个 元 素 得 到 
的 所 有 元 素 对 进行 计算 。 初 级 排序 算法 Selection.sort() (请 见 算法 2.1) 和 Insertion.sort(0) 
(请 见 算 法 2.2 ) 都 是 这 种 类 型 的 典型 程序 。 
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1.4.4.6 ”立方 级 别 


一 个 运行 时 间 的 增长 数量 级 为 N 的 程序 一 般 都 含有 三 个 嵌 套 的 for 循环 ， 对 由 X 个 元 素 得 


到 的 所 有 三 元 组 进行 计算 。 本 节 中 的 ThreeSum 就 是 一 个 典型 的 例子 。 


1.4.4.7 ”指数 级 别 


在 第 6 章 中 (也 只 会 在 第 6 章 ) 我 们 将 会 遇 到 运行 时 间 和 2 或 者 更 高 级 别 的 函数 成 正比 的 
程序 。 一 般 我 们 会 使 用 指数 级 别 来 描述 增长 数量 级 为 b 的 算法 ， 其 中 b>1 且 为 常数 ， 尽 管 不 同 


的 b 值得 到 的 运行 时 间 可 能 完全 不 同 。 指 数 级 别 的 算法 非常 慢 


问题 。 但 指数 级 别 的 算法 仍然 在 算法 理论 
中 有 着 重要 的 地 位 ， 因 为 它们 看 起 来 仍然 
是 解决 许多 问题 的 最 佳 方案 。 

以 上 是 最 常见 分 类 ， 但 肯定 不 是 最 全 
面 的 。 算 法 的 增长 数量 级 可 能 是 NlogN 
或 者 N" 或 者 是 其 他 类 似 的 函数 。 实际 上 ， 
详细 的 算法 分 析 可 能 会 用 到 若干 个 世纪 以 
来 发 明 的 各 种 数学 工具 。 

我 们 所 学 习 的 一 大 部 分 算法 的 性 能 特 
点 都 很 简单 ， 可 以 使 用 我 们 所 讨论 过 的 某 
种 增长 数量 级 函数 精确 地 描述 。 因 此 ， 我 
们 可 以 在 某 个 成 本 模型 下 提出 十 分 准确 的 
命题 。 例 如 ， 归 并 排序 所 需 的 比较 次 数 在 
1/2NlgN 到 NlgN 之 间 ， 由 此 我 们 立即 可 
知 归 并 排序 所 需 的 运行 时 间 的 增长 数量 级 
是 线性 对 数 的 。 简 单 起 见 ， 我 们 将 这 句 话 
简写 为 归并 排序 是 线性 对 数 的 。 

图 1.4.5 显示 了 增长 数量 级 函数 在 实 
际 应 用 中 的 重要 性 。 其 中 x 轴 为 问题 规模 ， 
y 轴 为 运行 时 间 。 这 些 图 表 清 晰 的 说 明了 
平方 级 别 和 立方 级 别 的 算法 对 于 大 规模 的 
问题 是 不 可 用 的 。 许 多 重要 的 问题 的 直观 
解法 是 平方 级 别 的 ， 但 我 们 也 发 现 了 它们 
的 线性 对 数 级 别 的 算法 。 此 类 算法 (包括 
归并 排序 ) 在 实践 中 非常 重要 ， 因 为 它们 
能 够 解决 的 问题 规模 远大 于 平方 级 别 的 解 
法 能 够 处 理 的 规模 。 因 此 ， 在 本 书 中 我 们 
自然 希望 为 各 种 基础 问题 找到 对 数 级 别 、 
线性 级 别 或 是 线性 对 数 级 别 的 算法 。 


1.4.5 ”设计 更 快 的 算法 


学 习 程 序 的 增长 数量 级 的 


不 可 能 用 它们 解决 大 规模 的 


标准 图 像 以 
500T 了 一 指数 级 别 RS 
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加 


1.4.5 ”典型 的 增长 数量 级 函数 


个 重要 动力 是 为 了 带 助 我 们 为 同一 个 问题 设计 更 快 的 算法 。 为 


了 说 明 这 一 点 ， 我 们 下 面 来 讨论 一 个 解决 3-sum 问题 的 更 快 的 算法 。 我 们 甚至 还 没有 开始 学 习 
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算法 ， 怎 么 知道 如 何 设计 一 个 更 快 的 算法 呢 ? 这 个 问题 的 答案 是 ， 我 们 已 经 讨论 并 使 用 过 两 个 经 典 
的 算法 ， 即 归并 排序 和 二 分 查找 。 也 知道 归并 排序 是 线性 对 数 级 别 的 ， 二 分 查找 是 对 数 级 别 的 。 如 
何 利用 它们 解决 3-sum 问题 呢 ? 
1.4.5.1 热身 运动 2-sum 

我 们 先 来 考虑 这 个 问题 的 简化 版 本 ， 即 找 出 一 个 输入 文件 中 所 有 和 为 0 的 整数 对 的 数量 。 简 
单 起 见 ， 我 们 还 假设 所 有 整数 均 各 不 相同 。 这 个 问题 很 容易 在 平方 级 别 解决 ， 只 需 将 ThreeSum 
countQ 中 关于 k 的 循环 和 a[k] 去 掉 即 可 得 到 一 个 双 层 循环 来 检查 所 有 的 整数 对 ， 如 表 1.4.7 中 的 
平方 级 别 条 目 所 示 (我 们 将 这 个 实现 称 为 TwoSum ) 。 下 面 这 个 实现 显示 了 归并 排序 和 二 分 查找 是 
如 何在 线性 对 数 级 别 解决 2-sum 问题 的 。 改 进 后 的 算法 的 思想 是 当 且 仅 当 -a[i] 存在 于 数组 中 〈 且 
a[i] 非 零 ) 时 ,a[i] 存在 于 某 个 和 为 0 的 整数 对 之 中 。 要 解决 这 个 问题 , 我 们 首先 将 数组 排序 (为 
二 分 查找 做 准备 ) ， 然 后 对 于 数组 中 的 每 个 a[i] ， 使 用 BinarySearch 的 rankQ 〇 方法 对 -a[i] 进行 
二 分 查找 。 如 果 结 果 为 j 且 j>i， 我 们 就 将 计数 器 加 1。 这 个 简单 的 条 件 测试 覆盖 了 三 种 情况 : 
口 如 果 二 分 查找 不 成 功 则 会 返回 -1， 因 此 我 们 不 会 增加 计数 器 的 值 ; 
口 如 果 二 分 查找 返回 的 j>1， 我 们 就 有 a[i] + a[j] = 0， 增 加 计数 需 的 值 ; 
口 如 果 二 分 查找 返回 的 j 在 0 和 i 之 间 , 我 们 也 有 a[i] + a[j] = 0, 但 不 能 增加 计数 需 的 值 ， 

以 避免 重复 计数 。 

这 样 得 到 的 结果 和 平方 级 别 的 算 
法 得 到 的 结果 完全 相同 ,但 它 所 需 的 
时 间 要 少 得 多 。 归 并 排序 所 需 的 时 间 public class TwoSumFast 


import java.util.Arrays; 


{ 
和 NlogN 成 正比 ， 二 分 查找 所 需 的 时 public static int count(int[] a) 
间 和 logN 成 正比 ， 因 此 整个 算法 的 A 
pays soma 

运行 时 间 和 NlogN 成 正比 。 像 这 样 设 int N = a.length; 
计 一 个 更 快 的 算法 并 不 仅仅 是 一 种 学 ee 
院 派 的 练习 一 一 更 快 的 算法 使 我 们 能 if (BinarySearch.rank(-a[i], a) > i) 
够 解决 更 庞大 的 问题 。 例 如 ， 你 现在 RE 
可 以 在 可 接受 的 时 间 范 围 内 在 计算 机 } 
上 解决 100 万 个 整数 (1Mints.txt ) public static void main(String[] args) 189 
人 直 YIZ 引 
的 2-sum 问题 了 ， 但 如 果 用 平方 级 别 int[] a = In.readInts(args[0]); 
的 算法 你 肯定 需要 等 上 很 长 很 长 的 时 StdOut.println(Ccount (a)); 
间 (请 见 练习 1.441 ) 。 ER 
1.4.5.2 ”3-sum 问题 的 快速 算法 

这 种 方式 对 3-sum 问题 同样 有 2-sum 问题 的 线性 对 数 级 别 的 解法 


效 。 和 刚才 一 样 ， 我 们 假设 所 有 整数 

均 各 不 相同 。 当 且 仅 当 -(a[i] + arj]) 在 数组 中 (不 是 a[i] 也 不 是 a[j] ) 时 ， 整 数 对 (a[i] 和 
a[j]) 为 某 个 和 为 0 的 三 元 组 的 一 部 分 。 下 面 代码 框 中 的 代码 会 将 数组 排序 并 进行 NV-1)/2 次 二 分 
查找 ， 每 次 查找 所 需 的 时 间 都 和 1logX 成 正比 。 因 此 总 运行 时 间 和 NlogN 成 正比 。 可 以 注意 到 ， 在 
这 种 情况 下 排序 的 成 本 是 次 要 因素 。 这 个 解法 也 使 我 们 能 够 解决 更 大 规模 的 问题 ( 请 见 练习 1.4.42 ) 。 
图 1.4.6 显示 了 用 这 4 种 算法 解决 我 们 提 到 过 的 几 种 问题 规模 时 的 成 本 的 悬殊 差距 。 这 样 的 差距 显 
然 是 我 们 追求 更 快 的 算法 的 动力 。 
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1.4.5.3 下 界 

表 1.4.8 总 结 了 本 节 所 讨 
论 的 内 容 。 我 们 立即 产生 了 一 
个 有 趣 的 疑问 ， 我 们 还 能 找到 ee class ThreeSumFast 


import java.util.Arrays; 


比 2-sum 问题 的 TwoSumFast public static int count(int[] a) 
i { // 计算 和 为 0 的 三 元 组 的 数目 
和 3-sum 问题 的 ThreeSumFast 0 ,SO 
快 得 多 的 算法 吗 ” 是 否 存在 解 ee 
tie eae (0 
决 2-sum 问题 的 线性 级 别 的 算 for Cint 1 = 0; 1 < N; 有 
法 ，3-sum 问题 的 线性 对 数 级 Por (Cine 3 = Tel i se MN Tn) 
放 if (BinarySearch.rank(-a[i]-a[j], a) > j) 
别 的 算法 ?对 于 2-sum， 这 个 cnt++; 
问题 的 回答 是 没有 ( 成 本 模型 BE nen 
仅 允 许 使 用 并 计算 这 些 整数 的 0 
外 性 武王 亚 寺 多 4 -内 public static void main(String[] args 
线性 或 是 平方 级 别 的 函数 中 的 f 


比较 操作 ) ; 对 于 3-sum， 问 int[] a = In.readIntsCargs[0]); 
答 是 不 知道 ， 不 过 专家 们 相信 Stdout.printlnCcount(a) ) ; 
3-sum 可 能 的 最 优 算法 是 平方 } 

级 别 的 。 为 算法 在 最 坏 情况 下 


2 的 运行 时 间 给 出 一 个 下 界 的 思 0 
想 是 非常 有 意义 的 ， 我 们 会 在 2.2 节 中 学 习 排序 时 再 次 表 1.4.8 ”运行 时 间 的 总 结 
讨论 它 。 复 杂 的 下 界 是 很 难 找到 的 ， 但 它 非常 有 助 于 指 ““” 算 ”法 运行 时 间 的 增长 数量 级 
引 我 们 追求 更 加 有 效 的 算法 。 TwoSum NY 
本 节 中 所 讨论 的 例子 为 我 们 学 习 本 书 中 的 其 他 算法 TwoSumFast NogN 
打下 了 基础 。 在 本 书 中 ， 我 们 会 按照 以 下 方式 解决 各 种 Threesum 和 
新 的 问题 。 ThreeSumFast NlogN 
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图 1.4.6 ”解决 2-sum 和 3-sum 问题 的 各 种 算法 的 成 本 
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口 实现 并 分 析 该 问题 的 一 种 简单 的 解法 。 我 们 通常 将 它们 称 为 暴力 算法 ， 例 如 ThreeSum 和 
TwoSum。 
口 考查 算法 的 各 种 改进 ， 它 们 通常 都 能 降低 算法 所 需 的 运行 时 间 的 增长 数量 级 ， 例 如 
TwoSumFast 和 ThreeSumFast。 
口 用 实验 证 明 新 的 算法 更 快 。 

在 许多 情况 下 ， 我 们 会 学 习 解 决 同一 个 问题 的 多 种 算法 ， 因 为 对 于 实际 问题 来 说 运行 时 间 只 是 
选择 算法 时 所 要 考虑 的 各 种 因素 之 一 。 在 本 书 中 我 们 会 在 解决 各 种 基础 问题 时 逐渐 理解 这 一 点 。 


1.4.6 ”倍率 实验 
下 面 这 种 方法 可 以 简单 有 效 地 预测 任意 程序 的 性 能 并 判断 它们 的 运行 时 间 大 致 的 增长 数量 级 。 
口 开发 一 个 输入 生成 需 来 产生 实际 情况 下 的 各 种 可 能 的 输入 (例如 DoublingTest 中 的 
timeTrial(0) 方法 能 够 生成 随机 整数 ) 。 
口 运行 下 方 的 DoublingRatio 程序 ， 它 是 DoublingTest 的 修改 版 本 ， 能 够 计算 每 次 实验 和 上 一 
次 的 运行 时 间 的 比值 。 
口 反复 运行 直到 该 比值 趋 近 于 极限 2"。 
这 个 实验 对 于 比值 没有 极限 的 算法 无 效 ， 但 它 仍然 适用 于 许多 程序 ， 我 们 可 以 得 出 以 下 结论 。 
口 它们 的 运行 时 间 的 增长 数量 级 约 为 Y。 
口 要 预测 一 个 程序 的 运行 时 间 ， 将 上 次 观察 得 到 的 运行 时 间 乘 以 2 并 将 NN 加倍， 如 此 反复 。 
如 果 你 希望 预测 的 输入 规模 不 是 Y 乘 以 2 的 过 , 可 以 相应 地 调整 这 个 比例 ( 请 见 练习 1.4.9 ) 。 
如 下 所 示 ，ThreeSum 的 比例 约 为 8， 因 此 我 们 可 以 预测 程序 对 于 N=16 000、32 000 和 64 000 
的 运行 时 间 将 分 别 为 408.8、3270.4 和 26 163.2 秒 ， 也 就 是 处 理 8000 个 整数 所 需 的 时 间 (51.1 秒 ) 
连续 乘 以 8 即 可 。 


实验 程序 
public class DoublingRatio 试验 结果 
3 
public static double timeTrial(Cint N) % java DoublingRatio 
// 参见 Doub1ingTest (请 见 1.4.2.3 节 实 验 程序 ) 250 OO 
public static void main(String[] args) 500 0.0 4.8 
f 1000 0a 6.9 
double prev = timeTrial(125); 2000 QO 0757 
for (int N = 250; true; N += N) 4000 6.4 8.0 
{ 8000 Sl 8.0 
double time = timeTrial(N); 
StdOut.printf("%6d %7.1f ", N, time); 
StdOut.printf("%5.1f\n", time/prev); 预测 
prev = time; 
二 16000 408.8 8.0 
} 32000 3270.4 8.0 
} 64000 26163.2 8.0 
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该 测试 基本 类 似 于 1.4.2.3 节 所 描述 的 过 程 ( 运行 实验 , 绘 出 对 数 图 像 得 到 运行 时 间 为 aN” 的 猜想 ， 
从 直线 的 斜率 得 到 2 的 值 ， 然 后 算出 a) ， 但 它 更 容易 使 用 。 事 实 上 ， 可 以 手工 通过 DoublingRatio 
准确 地 预测 程序 的 性 能 。 在 比例 趋 近 于 极限 时 ， 只 需要 不 断 乘 以 该 比例 即 可 得 到 更 大 规模 的 问题 的 
运行 时 间 。 这 里 ， 增 长 数量 级 的 近似 模型 是 一 个 窜 次 法 则 ， 指 数 为 该 比例 的 以 2 为 底 的 对 数 。 
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为 什么 这 个 比例 会 趋向 于 一 个 常数 ?简单 的 数学 计算 显示 我 们 讨论 过 的 所 有 常见 的 增长 数量 级 
函数 ( 指数 级 别 除外 ) 均 会 出 现 这 种 情况 : 


命题 C。( 倍 率 定 理 ) 如 果 T(N) ~ aM'lgN， 那 么 T(2N)/T(N) ~ 2”。 


证 明 。T(2N)/T(N) = a(2N) lg(2N)/aN'lgN 
=2°(1+lg2/lgN) 
2 


一 般 来 说 ， 数 学 模型 中 的 对 数 项 是 不 能 忽略 的 ， 但 在 倍率 假设 中 它 在 预测 性 能 的 公式 中 的 作 
并 不 那么 重要 。 
在 有 性 能 压力 的 情况 下 应 该 考虑 对 编写 过 的 所 有 程序 进行 倍率 实验 一 一 这 是 一 种 估计 运行 时 间 
的 增长 数量 级 的 简单 方法 ， 或 许 它 能 够 发 现 一 些 性 能 问题 ， 比 如 你 的 程序 并 没有 想象 的 那样 高 效 。 
一 般 来 说 ， 我 们 可 以 用 以 下 方式 对 程序 的 运行 时 间 的 增长 数量 级 作出 假设 并 预测 它 的 性 能 。 
1.4.6.1 评估 它 解决 大 型 问题 的 可 行 性 

对 于 编写 的 每 个 程序 ， 你 都 需要 能 够 回答 这 个 基本 问题 : “该 程序 能 在 可 接受 的 时 间 内 处 理 这 
些 数据 吗 ? ”对 于 大 量 数据 ， 要 回答 这 个 问题 我 们 需要 一 个 比 乘 以 2 更 大 的 系数 ( 比如 10 ) 来 进行 
推断 ， 如 表 1.4.9 所 示 。 无 论 是 投资 银行 家 处 理 每 日 的 金融 数据 还 是 工程 师 对 设计 进行 模拟 测试 ， 
定期 运行 需要 若干 个 小 时 才能 完成 的 程序 是 很 常见 的 ， 表 1.4.9 的 重点 也 就 是 这 些 情况 。 了 解 程序 
的 运行 时 间 的 增长 数量 级 能 够 为 你 提供 精确 的 信息 ， 从 而 理解 你 能 够 解决 的 问题 规模 的 上 限 。 理 解 
诸如 此 类 的 问题 ， 是 研究 性 能 的 首要 原因 。 没 有 这 些 知 识 ， 你 将 对 一 个 程序 所 需 的 时 间 一 无 所 知 ; 
而 如 果 你 有 了 它们 ， 一 张 信 封 的 背面 就 足够 你 计算 出 运行 所 需 的 时 间 并 采取 相应 的 行动 。 
1.4.6.2 ”评估 使 用 更 快 的 计算 机 所 产生 的 价值 

你 可 能 会 面 对 的 另 一 个 基本 问题 是 : “如 果 我 能 够 得 到 一 台 更 快 的 计算 机 ， 解 决 问题 的 速度 能 
够 加 快 多 少 ? ”一 般 来 说 ， 如 果 新 计算 机 比 老 的 快 x 售 ， 运 行 时 间 也 将 变 为 原来 的 x 分 之 一 。 但 你 

般 都 会 用 新 计算 机 来 处 理 更 大 规模 的 问题 ， 这 将 会 如 何 影响 所 需 的 运行 时 间 呢 ? 同样 ， 增 长 的 数 

量 级 信息 也 正 是 你 回答 这 个 问题 所 需要 的 。 

著名 的 摩尔 定律 告诉 我 们 ，18 个 月 后 计算 机 的 速度 和 内 存 容 量 都 会 翻 一 番 ，5 年 后 计算 机 的 速 
度 和 内 存 容量 都 会 变 为 现在 的 10 倍 。 表 1.4.9 说 明 如 果 你 使 用 的 是 平方 或 者 立方 级 别 的 算法 ， 摩 尔 
定律 就 不 适用 了 。 进 行 倍率 测试 并 检查 随 着 输入 规模 的 倍增 前 后 运行 时 间 之 比 是 趋向 于 2 而 非 4 或 
者 8 即 可 验证 这 种 情况 。 


一 


表 1.4.9 根据 增长 的 数量 级 函数 作出 的 预测 
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运行 时 间 的 增长 数量 级 过 版 后 床上 力 而 处 理 输入 规模 为 的 数据 需要 若干 小 时 的 某 个 程序 
描述 函数 处 理 10N 的 预计 时 间 ”在 快 10 倍 的 计算 机 上 处 理 10N 的 预计 时 间 
线性 级 别 N 2 10 一 天 几 个 小 时 
线性 对 数 级 别 ”NlogN 2 10 一 天 几 个 小 时 
平方 级 别 NY 4 100 几 个 星期 一 天 
立方 级 别 NV 8 1000 几 个 月 几 个 星期 
指数 级 别 2 2 2 永远 永远 
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1.4.7 ”注意 事项 

在 对 程序 的 性 能 进行 仔细 分 析 时 ， 得 到 不 一 致 或 是 有 误导 性 的 结果 的 原因 可 能 有 许多 种 。 它 们 
都 是 由 于 我 们 的 猜想 基于 的 一 个 或 多 个 假设 并 不 完全 正确 所 造成 的 。 我 们 可 以 根据 新 的 假设 得 出 新 
的 猜想 ， 但 我 们 考虑 的 细节 越 多 ， 在 分 析 中 需要 注意 的 方面 也 就 越 多 。 
1.4.7.1 大 常数 

在 首 项 近似 中 ， 我 们 一 般 会 忽略 低级 项 中 的 常数 系数 ,但 这 可 能 是 错 的 。 例 如 ， 当 我 们 取 函 
数 2M+cN 的 近似 为 ~ 2N 时 ,我们 的 假设 是 c 很 小 。 如 果 事 实 不 是 这 样 ( 比如 c 可 能 是 10; 或 是 
10' ) ， 该 近似 就 是 错误 的 。 因 此 ， 我 们 要 对 可 能 的 大 常数 保持 敏感 。 
1.4.7.2” 非 决定 性 的 内 循环 

内 循环 是 决定 性 因素 的 假设 并 不 总 是 正确 的 。 错 误 的 成 本 模型 可 能 无 法 得 到 真正 的 内 循环 ， 问 
题 的 规模 NN 也 许 没有 大 到 对 指令 的 执行 频率 的 数学 描述 中 的 首 项 大 大 超过 其 他 低级 项 并 可 以 忽略 它 
们 的 程度 。 有 些 程 序 在 内 循环 之 外 也 有 大 量 指 令 需 要 考虑 。 换 句 话 说 ， 成 本 模型 可 能 还 需要 改进 。 
1.4.7.3 ”指令 时 间 

每 条 指令 执行 所 需 的 时 间 总 是 相同 的 假设 并 不 总 是 正确 的 。 例 如 ， 大 多 数 现代 计算 机 系统 都 会 
使 用 缓存 技术 来 组 织 内 存 ， 在 这 种 情况 下 访问 大 数组 中 的 若干 个 并 不 相 邻 的 元 素 所 需 的 时 间 可 能 很 
长 。 如 果 让 DoublingRatio 运行 的 时 间 长 一 些 ， 你 可 能 可 以 观察 到 缓存 对 ThreeSum 所 产生 的 效果 。 
在 运行 时 间 的 比例 看 似 收敛 到 8 以 后 ， 由 于 缓存 ， 对 于 大 数组 该 比例 也 可 能 突然 变 为 很 大 的 值 。 
1.4.7.4 ”系统 因素 

一 般 来 说 ， 你 的 计算 机 总 是 同时 运行 着 许多 程序 。Java 只 是 争夺 资源 的 众多 应 用 程序 之 一 ， 而 
且 Java 本 身 也 有 许多 能 够 大 大 影响 程序 性 能 的 选项 和 设置 。 某 种 垃圾 收集 器 或 是 JIT 编译 器 或 是 正 
在 从 因特网 中 进行 的 下 载 都 可 能 极 大 地 影响 实验 的 结果 。 这 些 因素 可 能 会 干扰 到 实验 必须 是 可 重 现 
的 这 条 科学 研究 的 基本 原则 ， 因 为 此 时 此 刻 计算 机 中 所 发 生 的 一 切 是 无 法 再 次 重 现 的 。 原 则 上 来 说 
此 时 系统 中 运行 的 其 他 程序 应 该 是 可 以 忽略 或 可 以 控制 的 。 
1.4.7.5 不 分 伯仲 

在 我 们 比较 执行 相同 任务 的 两 个 程序 时 ， 常 常 出 现 的 情况 是 其 中 一 个 在 某 些 场景 中 更 快 而 在 另 
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一 些 场景 中 更 慢 。 我 们 已 经 提 到 过 的 一 些 因素 可 能 会 造成 这 种 差异 。 有 些 程序 员 ( 以 及 一 些 学 生 ) 


特别 喜欢 投入 大 量 精 力 进 行 比赛 并 找 出 “最 佳 ”的 实现 ， 但 此 类 工作 最 好 还 是 留 给 专家 。 
1.4.7.6 ”对 输入 的 强烈 依赖 

在 研究 程序 的 运行 时 间 的 增长 数量 级 时 ， 我 们 首先 作出 的 几 个 假设 之 一 就 是 运行 时 间 应 该 和 输 
人 相对 无 关 。 当 这 个 条 件 无 法 满足 时 ,我 们 很 可 能 无 法 得 到 一 致 的 结果 或 是 验证 我 们 的 猜想 。 例 如 ， 
假设 我 们 为 回答 : “输入 中 是 否 存在 和 为 0 的 三 个 整数 ? ”而 修改 ThreeSum 并 返回 boolean 值 ， 
将 cnt++ 替换 为 return true 并 在 最 后 加 上 return false 作为 结尾 ， 那 么 如 果 输 入 中 的 头 三 个 
整数 的 和 为 0， 该 程序 的 运行 时 间 的 增长 数量 级 为 常数 级 别 ; 如果 输 入 不 含有 这 样 的 三 个 整数 ， 程 
序 的 运行 时 间 的 增长 数量 级 则 为 立方 级 别 。 
1.4.7.7 ”多 个 问题 参量 

我 们 过 去 的 重点 一 直 是 使 用 仅 需 要 一 个 参量 的 函数 来 衡量 程序 的 性 能 ， 参 量 一 般 是 命令 行 参数 
或 是 输入 的 规模 。 但 是 ， 多 个 参量 也 是 可 能 的 。 典 型 的 例子 是 需要 构造 一 个 数据 结构 并 使 用 该 数据 
结构 进行 一 系列 操作 的 算法 。 在 这 种 应 用 程序 中 数据 结构 的 大 小 和 操作 的 次 数 都 是 问题 的 参量 。 我 
们 已 经 见 过 一 个 这 样 的 例子 ， 即 对 使 用 二 分 查找 的 白 名 单 问题 的 分 析 ， 其 中 白 名 单 中 及 个 整数 而 
输入 中 有 M 个 整数 ， 运 行 时 间 一 般 和 MlogN 成 正比 。 


NS 
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尽管 需要 注意 的 问题 很 多 ， 对 于 每 个 程序 员 来 说 ， 对 程序 的 运行 时 间 的 增长 数量 级 的 理解 都 是 
非常 有 价值 的 ， 而 且 我 们 这 里 所 描述 的 方法 也 都 十 分 强大 并 且 应 用 范围 广泛 。Knuth 证 明了 原则 上 
我 们 只 要 正确 并 完整 地 使 用 了 这 些 方 法 就 能 够 对 程序 作出 详细 准确 的 预测 。 计 算 机 系统 一 般 都 非常 
复杂 ， 完 整 精确 的 分 析 最 好 留 给 专家 们 ， 但 相同 的 方法 也 可 以 有 效 地 近似 估计 出 任何 程序 所 需 的 运 
行 时 间 。 火 箭 科学 家 需要 大 致知 道 一 枚 试验 火箭 的 着 陆地 点 是 在 大 海里 还 是 在 城市 中 ; 医学 研究 者 
需要 知道 一 次 药物 测试 是 会 杀 死 还 是 治愈 实验 对 象 ; 任何 使 用 计算 机 程序 的 科学 家 或 是 工程 师 也 应 
该 能 够 预计 它 是 会 运行 一 秒 钟 还 是 一 年 。 


1.4.8 ”处理 对 于 输入 的 依赖 

对 于 许多 问题 ， 刚 才 所 提 到 的 注意 事项 中 最 突出 的 一 个 就 是 对 于 输入 的 依赖 ， 因 为 在 这 种 情况 
下 程序 的 运行 时 间 的 变化 范围 可 能 非常 大 。1.4.7.6 节 中 ThreeSum 的 修改 版 本 的 运行 时 间 的 范围 根据 
输入 的 不 同 可 能 在 常数 级 别 到 立方 级 别 之 间 ， 因 此 如 果 我 们 想 要 预测 它 的 性 能 ， 就 需要 对 它 进行 更 
加 细致 的 分 析 。 在 这 里 我 们 会 简略 讨论 一 些 有 效 的 方法 ,我们 会 在 学 习 本 书 中 的 其 他 算法 时 用 到 它们 。 
1.4.8.1 输入 模型 

一 种 方法 是 更 加 小 心地 对 我 们 所 要 解决 的 问题 所 处 理 的 输入 建 模 。 例 如 ， 我 们 可 能 会 假设 
ThreeSum 的 所 有 输入 均 为 随机 int 值 。 使 用 这 种 方法 的 困难 主要 有 两 点 : 
口 输入 模型 可 能 是 不 切实 际 的 ; 
口 对 输入 的 分 析 可 能 极端 困难 ， 所 需 的 数学 技巧 远 非 一 般 的 学 生 或 者 程序 员 所 能 掌握 。 

其 中 前 者 更 为 重要 ， 因 为 计算 的 目的 就 是 发 现 输入 的 性 质 。 例 如 ， 如 果 我 们 编写 了 一 个 程序 来 
处 理 基因 组 ， 我 们 怎样 才能 估计 出 它 在 处 理 不 同 的 基因 组 时 的 性 能 呢 ?” 描 述 自 然 界 中 的 基因 组 的 优 
秀 模型 正 是 科学 家 们 所 寻找 的 ， 因 此 预计 我 们 的 程序 在 处 理 自然 界 中 得 到 的 数据 时 所 需 的 运行 时 间 
实际 上 也 是 在 为 寻找 这 个 模型 做 出 贡献 ! 第 二 个 困难 只 和 最 重要 的 几 个 算法 的 数学 结果 有 关 ， 我 们 
将 会 看 到 几 个 用 简单 可 靠 的 输入 模型 加 上 经 典 的 数学 分 析 帮 助 我 们 预测 程序 性 能 的 例子 。 
1.4.8.2 ”对 最 坏 情况 下 的 性 能 的 保证 

有 些 应 用 程序 要 求 程序 对 于 任意 输入 的 运行 时 间 均 小 于 某 个 指定 的 上 限 。 为 了 提供 这 种 性 能 保 
证 ， 理 论 研究 者 们 要 从 极度 翡 观 的 角度 来 估计 算法 的 性 能 : 在 最 坏 情 况 下 程序 的 运行 时 间 是 多 少 ? 
例如 ， 这 种 保守 的 做 法 对 于 运行 在 核反应 堆 、 心 脏 起 搏 器 或 者 刹车 控制 器 之 中 的 软件 可 能 是 十 分 必 
要 的 。 我 们 希望 保证 此 类 软件 能 够 在 某 个 指定 的 时 间 范 围 内 完成 任务 ， 否 则 结果 会 非常 糟糕 。 科 学 
家 们 在 人 研究 自然 界 时 一 般 不 会 去 考虑 最 坏 的 情况 . 在 生物 学 中 ， 最 坏 的 情况 也 许 是 人 类 的 灭绝 ; 在 
物理 学 中 ， 最 坏 的 情况 也 许 是 宇宙 的 结束 。 但 是 在 计算 机 系统 中 最 坏 情 况 是 非常 现实 的 忧虑 ， 因 为 
程序 的 输入 可 能 来 自 男 外 一 个 ( 可 能 是 恶意 的 ) 用 户 而 非 自 然 界 。 例 如 ,没有 使 用 提供 性 能 保证 算 
法 的 网 站 无 法 抵御 拒绝 服务 攻击 ， 这 是 一 种 黑客 用 大 量 请 求 淹没 服务 器 的 攻击 ， 会 使 网 站 的 运行 速 
度 相 比 正常 状态 大 幅 下 降 。 因 此 ， 我 们 的 许多 算法 的 设计 已 经 考虑 了 为 性 能 提供 保证 ， 例 如 : 


命题 D。 在 Bag (请 见 算法 1.4) 、Stack (请 见 算 法 1.2) 和 Queue (请 见 算法 1.3 ) 的 链表 实现 
中 所 有 的 操作 在 最 坏 情况 下 所 需 的 时 间 都 是 常数 级 别 的 。 


证 明 。 由 代码 可 知 ， 每 个 操作 所 执行 的 指令 数量 均 小 于 一 个 很 小 的 常数 。 注 意 : 该 论证 依赖 于 
一 个 (合理 的 ) 假设 ， 即 Java 系统 能 够 在 常数 时 间 内 创建 一 个 新 的 Node 对 象 。 
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1.4.8.3 ”随机 化 算法 

为 性 能 提供 保证 的 一 种 重要 方法 是 引入 随机 性 。 例 如 ,我 们 将 在 2.3 节 中 学 习 的 快速 排序 算法 ( 可 
能 是 使 用 最 广泛 的 排序 算法 ) 在 最 坏 情况 下 的 性 能 是 平方 级 别 的 ,但 通过 随机 打 乱 输入 ， 根 据 概率 
我 们 能 够 保证 它 的 性 能 是 线性 对 数 的 。 每 次 运行 该 算法 ， 它 所 需 的 时 间 均 不 相同 ,但 它 的 运行 时 间 
超过 线性 对 数 级 别 的 可 能 性 小 到 可 以 忽略 。 与 此 类 似 ， 我 们 将 在 3.4 节 中 学 习 的 用 于 符号 表 的 散 列 
算法 (同样 也 可 能 是 使 用 最 广泛 的 同类 算法 ) 在 最 坏 情 况 下 的 性 能 是 线性 级 别 的 ， 但 根据 概率 我 们 
可 以 保证 它 的 运行 时 间 是 常数 级 别 的 。 这 些 保证 并 不 是 绝对 的 ,但 它们 失效 的 可 能 性 甚至 小 于 你 的 
电脑 被 内 电击 中 的 可 能 性 。 因 此 ， 这 种 保证 在 实际 中 也 可 以 用 来 作为 最 坏 情况 下 的 性 能 保证 。 
1.4.8.4 ”操作 序列 

对 于 许多 应 用 来 说 ， 算 法 的 “输入 ”可 能 并 不 只 是 数据 ， 还 包括 用 例 所 进行 的 一 系列 操作 的 顺 
序 。 例如， 对 于 一 个 下 压 栈 来 说 ， 用 例 先 压 人 个 值 然 后 再 将 它们 全 部 弹出 的 所 得 到 的 性 能 ， 入 
次 压 人 弹出 的 混合 操作 序列 所 得 到 的 性 能 可 能 大 不 相同 。 我 们 的 分 析 要 将 这 些 情况 部 考虑 进去 (或 
者 包含 一 个 操作 序列 的 合理 模型 ) 。 
1.4.8.5 ” 均 摊 分 析 

相应 地 ， 提 供 性 能 保证 的 另 一 种 方法 是 通过 记录 所 有 操作 的 总 成 本 并 除 以 操作 总 数 来 将 成 本 均 
挫 。 在 这 里 ， 我 们 可 以 允许 执行 一 些 昂贵 的 操作 ,但 保持 所 有 操作 的 平均 成 本 较 低 。 这 种 类 型 分 析 
的 典型 例子 是 我 们 在 1.3 节 中 对 基于 动态 调整 数组 大 小 的 Stack 数据 结构 ( 请 见 1.3.2.5 节 的 算法 1.1 ) 
的 研究 。 简 单 起 见 ， 假设 N 是 2 的 需 。 如 果 数 据 结 构 初 始 为 空 ，X 次 连续 的 pushQ 〇 调用 需要 访问 
数组 元 素 多 少 次 ?计算 这 个 答案 很 简单 ， 数 组 访问 的 次 数 为 198 

N+H4+8+16+…+T2N=SN 4 


其 中 , 首 项 表示 次 pushQ 〇 调用 ， 


其 余 的 项 表示 每 次 数组 长 度 加 售 时 初始 。 

化 数据 结构 所 访问 数组 的 次 数 。 因 此 ， | i 

每 次 操作 访问 数组 的 平均 次 数 为 常数 ， 要 示 一 次 操作 。 Fe 

但 最 后 一 次 操作 所 需 的 时 间 是 线性 的 。 = 

这 种 计算 被 称 为 均 排 分 析 ， 因 为 我 人 将 长 | dae 
少量 昂贵 操作 的 成 本 通过 各 种 大 量 廉价 0 
的 操作 挫 平 了 。VisualAccumulator 1 4d IR 128 

Ab S24 一 人 二 于 1.4.7 ”向 一 个 RandomBag 对 象 中 添加 元 素 时 能 
0 0 图 人 添加 元 素 时 的 


命题 E。 在 基于 可 调整 大 小 的 数组 实现 的 Stack 数据 结构 中 ( 请 见 算法 1.1 ) ， 对 空 数据 结构 所 
进行 的 任意 操作 序列 对 数组 的 平均 访问 次 数 在 最 坏 情 况 下 均 为 常数 。 


简略 证 明 。 对 于 每 次 使 数组 大 小 增加 《〈 假设 大 小 从 六 变 为 2V ) 的 pushQ) 操作 ， 对 于 N/2+2 到 
N 之 间 的 任意 大 考虑 使 栈 大 小 增长 到 天 的 最 近 W2-1 次 push(C) 操作 。 将 使 数组 长 度 加 倍 所 需 
的 4N 次 访问 和 所 有 push() 操作 所 需 的 W2 次 数组 访问 (每 次 pushQ 操作 均 需 访问 一 次 数组 ) 
取 平 均 ， 我 们 可 以 得 到 每 次 操作 的 平均 成 本 为 9 次 数组 访问 。 要 证 明 长 度 为 WM 的 任意 操作 序列 
所 需 的 数组 访问 次 数 和 MM 成 正比 则 更 加 复杂 ( 请 见 练习 1.4.32 ) 。 
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这 种 分 析 应 用 范围 很 广 ， 我 们 会 使 用 可 动态 调整 大 小 的 数组 作为 数据 结构 实现 本 书 中 的 若干 
算法 。 

算法 分 析 者 的 任务 就 是 尽 可 能 地 揭示 关于 某 个 算法 的 更 多 信息 ， 而 程序 员 的 任务 则 是 利用 这 些 
言 息 开 发 有 效 解决 现实 问题 的 程序 。 在 理想 状态 下 ， 我 们 希望 根据 算法 能 够 得 到 清晰 简洁 的 代码 并 
能 够 为 我 们 感 兴趣 的 输入 提供 良好 的 保证 和 性 能 。 我 们 在 本 章 中 讨论 的 许多 经 典 算 法 之 所 以 对 众多 
应 用 都 十 分 重要 就 是 因为 它们 具备 这 些 性 质 。 以 它们 作为 样板 ， 在 编程 中 遇 到 典型 问题 时 你 也 能 独 
立 给 出 很 好 的 解决 方法 。 


1.4.9 内 存 

和 运行 时 间 一 样 ， 一 个 程序 对 内 存 的 使 用 也 和 物理 世界 直接 相关 : 计算 机 中 的 电路 很 大 一 部 分 
的 作用 就 是 帮助 程序 保存 一 些 值 并 在 稍 后 取出 它们 。 在 任意 时 刻 需要 保存 的 值 越 多 ， 需 要 的 电路 也 
就 越 多 。 你 可 能 知道 计算 机 能 够 使 用 的 内 存 上 限 ( 知道 这 一 点 的 人 应 该 比 知道 运行 时 间 限 制 的 人 要 
多 ) 因为 你 很 可 能 已 经 在 内 存 上 花 了 不 少 额 外 的 支出 。 

计算 机 上 的 Java 对 内 存 的 使 用 经 过 了 精心 的 设计 (程序 的 每 个 值 在 每 次 运行 时 所 需 的 内 存量 都 
是 一 样 的 ) ， 但 实现 了 Java 的 设备 非常 多 ， 而 内 存 的 使 用 是 和 实现 相关 的 。 简 单 起 见 ， 我 们 用 典型 
这 个 词 暗示 和 机 器 相关 的 值 。 

Java 最 重要 的 特性 之 一 就 是 它 的 内 存 分 配 系统 。 它 的 任务 是 把 你 从 对 内 存 的 操作 之 中 解脱 出 来 。 
显然 ， 你 肯定 已 经 知道 应 该 在 适当 的 时 候 利 用 这 个 功能 ， 但 是 你 也 应 该 ( 至 少 是 大 概 ) 知道 程序 对 
内 存 的 需求 在 何 时 会 成 为 解决 问题 的 障碍 。 

分 析 内 存 的 使 用 比分 析 程 序 所 和 需 的 运行 时 间 要 简单 得 多 ， 主 要 原因 是 它 所 涉及 的 程序 语句 较 少 
(只 有 声明 语句 ) 且 在 分 析 中 我 们 会 将 复杂 的 对 象 简化 为 原始 数据 类 型 ， 而 原始 数据 类 型 的 内 存 使 
j 是 预先 定义 好 的 ， 而 且 非 常 容易 理解 : 只 需 将 变量 的 数量 和 它们 的 类 型 所 对 应 的 字 节 数 分 别 相 乘 
并 汇总 即 可 。 例 如 , 因为 Java 的 int 数 据 类 型 是 -2 147 483 648 到 2 147 483 647 之 间 的 整数 值 的 集合 ， 
即 总 数 为 22 个 不 同 的 值 ， 典 型 的 Java 实现 使 用 32 位 来 表示 int 值 。 其 他 原始 数据 类 型 的 内 存 使 
用 也 是 基于 类 似 的 考虑 : 典型 的 Java 实现 使 用 8 位 表示 字 节 , 用 2 字 节 (16 位 ) 表示 一 个 char 值 ， 
用 4 字 节 (32 位 ) 表示 一 个 int 值 ， 用 8 字 节 (64 位 ) 表示 一 个 double 或 者 1ong 值 ,用 1 字 节 
表示 一 个 boolean 值 ( 因为 计算 机 访问 内 存 的 方式 都 是 一 次 1 字 节 ) ， 见 表 1.4.10。 根 据 可 用 内 存 
的 总 量 就 能 够 计算 出 保存 这 些 值 的 极限 数量 。 例 如 ， 如 果 计 算 机 有 1 GB 内 存 ( 10 亿 字 节 ) ， 那 么 
同一 时 间 最 多 能 在 内 存 中 保存 2.56 亿 万 个 int 值 或 是 1.28 亿 万 个 double 值 。 

从 另 一 方面 来 说 ， 对 内 存 使 用 的 分 析 和 硬件 以 及 表 1.4.10 ”原始 数据 类 型 的 常见 内 存 、 需 求 
Java 的 不 同 实现 中 的 各 种 差异 有 关 ， 因 此 我 们 举 出 的 二 


这 个 特定 的 例子 并 不 是 一 成 不 变 的 ， 你 应 该 以 它 为 参 ee 
考 来 学 习 在 条 件 允 许 的 情况 下 如 何 分 析 内 存 的 使 用 。 es . 
例如 ， 许 多 数据 结果 都 涉及 对 机 器 地 址 的 表示 ， 而 在 hear > 
各 种 计算 机 中 一 个 机 器 地 址 所 需 的 内 存 又 各 有 不 同 。 int 4 
为 了 保持 一 致 ， 我 们 假设 表示 机 器 地 址 需要 8 字 节 ， float 
这 是 现在 广泛 使 用 的 64 位 构架 中 的 典型 表示 方式 ， 许 1ong 8 
多 老式 的 32 位 构架 只 使 用 4 字 节 表示 机 器 地 址 。 double 8 


1.4.9.1 对象 
要 知道 一 个 对 象 所 使 用 的 内 存量 ,需要 将 所 有 实例 变量 使 用 的 内 存 与 对 象 本 身 的 开销 (一般 是 


16 字 节 ) 相 加 。 这 些 开销 包括 一 个 指向 对 象 的 类 


引用 、 垃 圾 收集 信息 以 及 同步 信息 。 另 外 ， 一 般 内 存 
都 会 被 填充 为 8 字 节 ( 64 位 计算 机 
一 个 Integer 对 象 会 使 


的 使 
的 倍数 。 例 如 ， 


] 24 字 闻 (人 


的 机 融 字 ) 


的 整数 的 封装 对 象 
public class Integer 
{ private int x; 
和 

16 


字 节 的 对 象 开销 ，4 字 节 用 于 保存 它 的 int 值 以 及 4 


个 填充 字 节 )。 类 似 地 ,一 个 Date 对象 ( 请 见 表 1.2.12 ) 


需要 使 用 32 字 节 : 16 字 节 的 对 象 开销 ，3 个 int 


例 变量 各 需 4 字 节 ， 以 及 4 个 填充 字 节 。 对 象 的 引用 


Date 对 象 

public class Date 
PS 
尖 private int day; 
private int month; 
private int year; 


一 般 都 是 一 个 内 存 地 址 ， 因 此 会 使 用 8 字 节 。 例 如 ， ?| 


一 个 Counter 对 象 ( 请 见 表 1 


16 字 节 的 对 象 开销 ，8 字 节 用 于 它 的 String 型 实 


变量 


1.4.9.2 ”链表 


嵌 套 的 非 静 态 ( 内 部 ) 类 , 例如 我 们 的 Node 类 ( 请 
还 需要 额外 的 8 字 节 (用 于 一 个 指 
向 外 部 类 的 引用 ) 。 因 此 ， 一 个 Node 对 象 需要 使 
(16 字 节 的 对 象 开 销 ， 指 向 Item 和 Node 
j 各 需 8 字 节 ， 另 外 还 有 8 字 节 的 额外 开 
因为 Integer 对 象 需要 使 用 24 字 节 ， 一 个 含 
有 N 个 整数 的 基于 链表 的 栈 ( 请 见 算法 1.2 ) 需要 使 
用 (32+64N ) 字 节 ,包括 Stack 对 象 的 16 字 节 的 开 
j 类 型 实例 变量 8 字 节 ,int 型 实例 变量 4 字 节 ， 


见 1.3.3.1 节 ) ， 


用 40 字 节 
对 象 的 引 
销 ) 。 


销 , 引 


(一 个 引用 ) ，4 字 节 
4 个 填充 字 节 。 当 我 们 说 明 
我 们 会 单独 说 明 它 所 指向 的 对 象 所 占 
这 个 内 存 使 用 总 量 3 
存 。 常 见 对 象 的 内 存 需 求 列 在 了 图 


] 于 int 实例 变量 ， 以 


个 引 


的 内 存 ， 因 
F 没 有 包含 String 值 所 使 用 的 
1.4.8 中 。 


4 个 填充 字 节 ， 每 个 元 素 需 要 64 字 节 ， 一 个 Node 对 象 的 40 字 节 和 一 个 Integer 对 象 的 24 字 节 。 


1.4.9.3 ”数组 
图 


所 占 的 内 存 时 ， 


.2.11 ) 需 要 使 用 32 字 节 : 


例 
及 


Counter 对 象 


public class Counter 


private int count; 


此 
内 


Node 对 象 内 部 类 ) 


public class Node 
{ 


private Item item; 
private Node next; 


private String name; 
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String 
< 的 引用 


一 一 int 值 


> 引 


图 1.4.8 典型 对 象 的 内 存 需求 


201 


1.4.9 总 结 了 Java 中 的 各 种 类 型 的 数组 对 内 存 的 典型 需求 。Java 中 数组 被 实现 为 对 象 ， 它 们 


一 般 都 会 因为 记录 长 度 而 需要 额外 的 内 存 。 一 个 原始 数据 类 型 的 数组 一 般 需要 24 字 节 的 头 信 息 (16 


学 方 的 对 象 开 销 ，4 字 方 


j 于 保存 长 度 以 及 4 填充 字 节 ) 再 加 上 保存 值 所 需 的 内 存 。 例 如 ， 


一 个 全 


有 NN 个 int 值 的 数组 需要 使 用 (24 + 4N) 字 节 (会 被 填充 为 8 的 倍数 ) ， 一 个 含有 N 个 double 
值 的 数组 需要 使 用 (24 + 8N ) 字 节 。 一 个 对 象 的 数组 就 是 一 个 对 象 的 引用 的 数组 ， 所 以 我 们 应 该 在 
对 象 所 需 的 内 存 之 外 加 上 引用 所 需 的 内 存 。 例 如 ， 一 个 含有 N 个 Date 对 象 (请 见 表 1.2.12 ) 的 数 


组 需要 使 用 24 字 节 (数组 必 


F 销 ) 加 上 8N 字 节 (所 有 引用 ) 加 上 每 个 对 象 的 32 字 节 ， 总 共 (241 


40N ) 字 节 。 二 维 数组 是 一 个 数组 的 数组 ( 每 个 数组 都 是 一 个 对 象 )。 例 如 , 一 个 MxN 的 double 


类 型 的 二 维 数组 需要 使 用 24 字 节 (数组 的 数组 的 改 


F 销 ) 加 上 8M 字 节 ( 所 有 元 素数 组 的 引 


j ) 加 


上 24M 字 节 (所 有 元 素数 组 的 开销 ) 加 上 8MN 字 节 (M 个 长 度 为 YX 的 double 类 型 的 数组 ) ， 总 


共 (8MN+32M+24 ) ~ 8MN 字 节 ; 当 数 组 元 素 是 对 象 时 计算 方法 类 似 ， 结 内 


指向 数组 对 象 的 引 


j 的 数组 以 及 所 有 这 些 对 象 本 身 


o 


相同 ， 


j 来 保存 充满 


128 区 第 1 章 基 础 


int 值 的 数组 doub1e 值 的 数组 


int[] a = new int[N]; double[] c = new double[N]; 


总 计 : 24+4N 
(为 偶数 ) 


| 


~ 个 double 
5 值 (8N 字 节 ) 


一 16 字 节 


总 计 :24+8N 
一 4 
对 象 的 数组 32 字 节 数组 的 数组 〈 二 维 数组 ) Ny 个 double 
2 [二 > 
Date[] d; double[][] ti 7 值 (8N 字 市 ) 
d = new Date[N]; t = new double[M] [N]; 2 
for (Cint k = 0; k < Ni k++) 
{ 
af[k] = new Date (...); t 一 
| 16 字 节 
int 值 
(4 字 节 
M 个 引用 / 
(8M 字 节 


总 计 : 24+8N + NX32=24+40N 


对 象 
开销 
总 结 day 
开 | Ee month 
类 型 字 节 数 year 
int[] ~4N 填充 字 节 
double[] ~8N 
Date[] ~40N 


double[][] ~8NM 


1.4.9.4 字符 串 对 象 


我 们 可 以 用 相同 的 方式 说 明 Java 的 String 类 型 
是 非常 常见 的 。String 的 标准 实现 含有 4 个 实例 变量 


个 int 值 (各 4 字 节 ) 。 第 一 个 int 值 描述 的 是 


器 (字符 串 的 长 度 ) 。 按 照 图 1.4.10 中 所 示 的 实例 变 
到 value[offset + count - 1] 中 的 字符 组 成 。 


总 计 : 24+8M + MX(24+ 8N)=24+32M +8MN | | 


此 


图 1.4.9 int 值 、double 值 、 对 象 和 数组 的 数组 对 内 存 的 典型 需求 


对 象 所 需 的 内 存 ， 只 是 对 于 字符 串 来 说 别名 


个 指向 字符 数组 的 引用 (8 字 节 ) 和 三 


字符 数组 中 的 偏 移 量 ， 第 二 个 int 值 是 一 个 计数 
量 名 ,对 象 所 表示 的 字符 串 由 value[offset] 
String 对 象 中 的 第 三 个 int 值 是 一 个 散 列 值 ， 


它 在 某 些 情况 下 可 以 节省 一 些 计算 ， 我 们 现在 可 以 忽略 它 。 因 此 ， 每 个 String 对 象 总 共 会 使 用 40 
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字 节 (16 字 节 表示 对 象 , 三 个 int 实例 变量 各 需 4 字 节 , 加 上 数组 引用 的 8 字 节 和 4 个 填充 字 节 ) 。 


这 
数 


DD 
是 除 字符 数组 之 外 字符 串 所 需 的 内 存 空间 ， 所 有 字符 所 需 的 内 存 需 要 另 记 ， 因 为 String 的 char 
组 常常 是 在 多 个 字符 串 之 间 共 享 的 。 因 为 String 对 象 是 不 可 变 的 ， 这 种 设计 使 String 的 实现 


在 能 够 在 多 个 对 象 都 含有 相同 的 value[] 数组 时 节省 内 存 。 


1.4.9.5 ”字符 串 的 值 和 子 字符 串 


一 个 长 度 为 NN 的 String 对 象 一 般 需 要 使 用 40 字 节 (String 对 象 本 身 ) 加 上 (24+2N ) 字 节 ( 字 
符 数 组 ) ， 总 共 〈64+2N ) 字 节 。 但 字符 串 处 理 经 常会 和 子 字符 串 打交道 ， 所 以 Java 对 字符 串 的 表 
示 希 望 能 够 避免 复制 字符 串 中 的 字符 。 当 你 调用 substringQ 方法 时 ， 就 创建 了 一 个 新 的 String 


对 象 (40 字 节 ) ,但 它 仍然 重 用 了 相同 的 value[] 数组 ， 


因此 该 字符 串 的 子 字符 串 只 会 使 用 40 字 


节 的 内 存 。 含 有 原始 字符 串 的 字符 数组 的 别名 存在 于 子 字 符 串 中 ， 子 字符 串 对 象 的 偏 移 量 和 长 度 域 
标记 了 子 字 符 串 的 位 置 。 换 名 话说 ， 一 个 子 字符 串 所 需 的 额外 内 存 是 一 个 常数 ， 构 造 一 个 子 字符 串 
所 需 的 时 间 也 是 常数 ， 即 使 字符 串 和 子 字符 串 的 长 度 极 大 也 是 这 样 。 某 些 简陋 的 字符 串 表 示 方 法 在 


创建 子 字符 串 时 需要 复制 其 中 的 字符 ， 这 将 需要 线 
性 的 时 间 和 空间 。 确 保 子 字符 串 的 创建 所 需 的 空间 
(以 及 时 间 ) 和 其 长 度 无 关 是 许多 基础 字符 串 处 理 
算法 的 效率 的 关键 所 在 。 字 符 串 的 值 与 子 字符 串 示 
例如 图 1.4.10 所 示 。 

这 些 基 础 机 制 能 够 有 效 帮 助 我 们 估计 大 量程 序 
对 内 存 的 使 用 情况 ， 但 许多 复杂 的 因素 仍然 会 使 这 
个 任务 变 得 更 加 困难 。 我 们 已 经 提 到 了 别名 可 能 挛 
生 的 潜在 影响 。 男 外 ， 当 涉及 函数 调用 时 ， 内 存 的 
消耗 就 变 成 了 一 个 复杂 的 动态 过 程 ， 因 为 Java 系统 
的 内 存 分 配 机 制 扮演 一 个 重要 的 角色 ， 而 这 套 机 制 
又 和 Java 的 实现 有 关 。 例 如 ， 当 你 的 程序 调用 一 个 
方法 时 ， 系 统 会 从 内 存 中 的 一 个 特定 区 域 为 方法 分 
配 所 需要 的 内 存 (用 于 保存 局 部 变量 ) ， 这 个 区 域 
叫做 栈 (Java 系统 的 下 压 栈 ) 。 当 方法 返回 时 ， 它 
所 占用 的 内 存 也 被 返回 给 了 系统 栈 。 因 此 ， 在 递归 
程序 中 创建 数组 或 是 其 他 大 型 对 象 是 很 危险 的 ， 因 
为 这 意味 着 每 一 次 递归 调用 都 会 使 用 大 量 的 内 存 。 
当 通 过 new 创建 对 象 时 ， 系 统 会 从 堆 内 存 的 另 一 块 
特定 区 域 为 该 对 象 分 配 所 需 的 内 存 (这 里 的 堆 和 我 
们 将 在 2.4 节 学 习 的 二 又 堆 数 据 结 构 不 同 ) 。 而且， 
你 要 记 住所 有 对 象 都 会 一 直 存 在 ， 直 到 对 它 的 引用 
消失 为 止 。 此 时 系统 的 垃圾 回收 进程 会 将 它 所 占用 
的 内 存 收 回 到 堆 中 。 这 种 动态 过 程 使 准确 估计 一 个 
程序 的 内 存 使 用 变 得 极为 困难 。 


1.4.10 “展望 


String 对 象 〈Java 库 ) 40 字 区 
public class String 
对 象 
private char[] value; 开销 


private int offset; 
private int count; 
private int hash; 


串 的 值 

} 偏 移 量 ~ 
停 符 串 的 长 度 -一 int 值 
散 列 值 
填充 字 节 

子 字符 串 举例 

String genome = "CGCCTGGCGTCTGTAC"; 

String codon = genome.substring(6, 3); 

genome 


Ey 


40 字 节 


图 1.4.10 一 个 String 对 象 和 一 个 子 字符 串 


良好 的 性 能 是 非常 重要 的 。 速 度 极 慢 的 程序 和 不 正确 


的 程序 一 样 无 用 ， 因 此 显然 有 必要 在 一 开 


204 
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始 就 关注 程序 的 运行 成 本 ， 这 能 够 让 你 大 致 佑 计 出 所 要 解决 的 问题 的 规模 ， 而 聪明 的 做 法 是 时 刻 关 
注 程 序 中 的 内 循环 代码 的 组 成 。 

但 在 编程 领域 中 ， 最 常见 的 错误 或 许 就 是 过 于 关注 程序 的 性 能 。 你 的 首要 任务 应 该 是 写 出 清 
晰 正确 的 代码 。 仅 仅 为 了 提高 运行 速度 而 修改 程序 的 事 最 好 留 给 专家 们 来 做 。 事 实 上 ， 这 人 么 做 常常 
会 降低 生产 效率 ， 因 为 它 会 产生 复杂 而 难以 理解 的 代码 。C.A.R. Hoare (快速 排序 的 发 明 人 ， 也 是 
一 位 推动 编写 清晰 而 正确 的 代码 的 领军 人 物 ) 曾 将 这 种 想法 总 结 为 “不 成 熟 的 优化 是 所 有 罪恶 之 
源 。”Knuth 为 这 名 话 加 上 了 一 个 定语 “在 编程 领域 中 (或 者 至 少 是 大 部 分 罪恶 ) ”。 另 外 ， 如 果 
降低 成 本 带 来 的 效益 并 不 明显 ， 那 么 对 运行 时 间 的 改进 就 不 值得 了 。 例 如 ， 如 果 一 个 程序 所 需 的 运 
行 时 间 只 是 一 瞬间 和 而已， 那么 即使 是 将 它 的 速度 提高 十 倍 也 是 无 关 紧要 的 。 即 使 程序 的 运行 需要 
好 几 分 钟 ， 实 现 并 调试 一 个 新 算法 所 需要 的 时 间 也 可 能 会 大 大 超过 直接 运行 一 个 稍微 慢 一 点 的 算 
法 一 一 这 种 时 候 就 应 该 让 计算 机 代劳 。 更 糟糕 的 情况 是 你 可 能 花 了 大 量 的 时 间 和 心血 去 实现 一 个 理 
论 上 能 够 改进 程序 的 想法 ， 但 实际 上 什么 也 没 发 生 。 

在 编程 领域 中 ， 第 二 常见 的 错误 或 许 是 完全 忽略 了 程序 的 性 能 。 较 快 的 算法 一 般 都 比 暴力 算法 
更 复杂 ， 所 以 很 多 人 宁可 使 用 较 慢 的 算法 也 不 愿 应 付 复杂 的 代码 。 但 是 ， 几 行 优秀 的 代码 有 时 能 够 
给 你 带 来 巨大 的 收益 。 许 多 人 在 使 用 平方 级 别 的 暴力 算法 去 解决 问题 的 盲目 等 待 中 浪费 了 大 量 的 时 
间 ， 但 实际 上 线性 级 别 或 是 线性 对 数 级 别 的 算法 能 够 在 几 分 之 一 的 时 间 内 完成 任务 。 当 我 们 需要 处 
理 大 规模 问题 时 ， 通 常 ， 除 了 寻找 更 好 的 算法 之 外 我 们 别 无 选择 。 

我 们 将 使 用 本 节 所 述 的 各 种 方法 来 评估 算法 对 内 存 的 使 用 ， 并 在 多 个 成 本 模型 下 对 算法 进行 数 
学 分 析 从 而 得 到 相应 的 近似 函数 ， 然 后 根据 近似 函数 提出 对 算法 所 需 的 运行 时 间 的 增长 数量 级 的 猜 
想 并 通过 实验 验证 它们 。 改 进程 序 ， 使 之 更 加 清晰 、 高 效 和 优雅 应 该 是 我 们 一 贯 的 目标 。 如 果 你 在 
开发 一 个 程序 的 全 过 程 中 都 能 关注 它 的 运行 成 本 ,那么 你 都 会 从 该 程序 的 每 次 执行 中 受益 。 


问 为 什么 不 用 StdRandom 生成 随机 数 来 代替 1Mints.txt ? 

答 在 开发 中 ， 这 样 做 能 够 使 调试 代码 和 重复 实验 更 简单 。 每 次 调用 StdRandom 都 会 产生 不 同 的 值 ， 
所 以 修正 一 个 bug 之 后 并 再 次 运行 程序 可 能 并 不 能 测试 这 次 修正 ! 可 以 使 用 StdRandom 中 的 
setSeed0) 方法 来 解决 这 个 问题 ,但 1Mints.txt 类 参考 文件 能 够 使 添加 测试 用 例 变 得 更 容易 。 另 外 ， 
不 同 的 程序 员 还 能 够 比较 程序 在 不 同 计算 机 上 的 性 能 而 不 必 担 心 输入 模型 的 不 同 。 只 要 你 的 程序 已 
经 调试 完毕 且 你 已 经 大 致 了 解 了 它 的 性 能 ， 当 然 有 必要 用 随机 数据 测试 它 。 例 如 ，DoublingTest 和 
DoublingRatio 使 用 的 就 是 这 种 方式 。 

问 我 在 计算 机 上 运行 了 DoublingRatio, 但 我 得 到 的 结果 和 书 上 的 不 一 至。 有 些 比例 的 收敛 值 并 不 是 8， 
为 什么 ? 

答 ”这 就 是 为 什么 我 们 在 1.4.7 节 中 讨论 了 注意 事项 。 最 可 能 的 情况 是 你 计算 机 上 的 操作 系统 在 实验 进行 
中 还 开小差 去 干 了 点 儿 别 的 活 儿 。 消 除 这 种 问题 的 一 种 方式 是 花 更 多 时 间 做 更 多 次 实验 。 比 如 ， 可 
以 修改 DoublingTest， 让 它 对 于 每 个 N 都 进行 1000 次 实验 ， 这 样 对 于 每 个 NN 它 都 能 给 出 对 运行 时 间 
更 加 精确 的 估计 值 。 

问 ”在 近似 函数 的 定义 中 ，“ 随 着 N 的 增 大 ”确切 的 意思 是 什么 ? 

答 NV)~g(N) 的 正式 定义 为 limy ,sftN)/g(N)=1。 

问 ”我 还 见 到 过 其 他 表示 增长 的 数量 级 的 符号 ， 它 们 都 表示 什么 意思 ? 


蕉 


问 


1.4.1 证 明 从 WNW 个 数 中 取 三 个 整数 的 不 同 组 合 的 总 数 为 NN- 1D(N 一 2) 16。 提示: 使 用 数学 归纳 法 。 
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使 用 最 广泛 的 记 法 是 “大 0”: 对 于 NAN 和 g(N)， 如 果 存 在 常数 c 和 使 得 对 于 所 有 N>N, 都 有 
| AN) 1 < ce(N)， 则 我 们 称 N) 为 OCeCV)。 这 种 记 法 在 描述 算法 性 能 的 渐进 上 限时 十 分 有 用 ， 这 
在 算法 理论 领域 是 十 分 重要 的 ， 但 它 在 预测 算法 性 能 或 是 比较 算法 时 并 没有 什么 作用 。 

上 题 中 ， 为 什么 说 没有 作用 呢 ? 

主要 原因 是 它 描述 的 仅仅 是 运行 时 间 的 上 限 ， 而 算法 的 实际 性 能 可 能 要 好 得 多 。 一 个 算法 的 运行 时 
间 可 能 既是 O(N ) 也 是 ~ aNlogN 的 。 因 此 ,， 它 不 能 解释 类 似 倍率 实验 等 测试 ( 请 见 1.4.6 节 命 题 C ) 。 
那 为 什么 “大 0” 符 号 的 应 用 非常 广泛 呢 ? 
因为 它 简化 了 对 增长 数量 级 的 上 限 的 研究 ， 甚 至 也 适用 于 一 些 无 法 进行 精确 分 析 的 复杂 算法 。 另 
外 ， 它 还 可 以 和 计算 理论 中 用 于 将 算法 按照 它们 在 最 坏 情况 下 的 性 能 分 类 的 “大 Omega” 和 “大 
Theta” 符 号 一 起 使 用 。 如 果 存 在 常数 c 和 Nu 使 得 对 于 N>N 都 有 1 AN) | > cg(N)， 则 我 们 称 AN) 
为 8(g(N))。 如 果 .fN) 既是 O(g(N)) 也 是 8(g(N))， 则 我 们 称 7tN) 为 6(g(N))。“ 大 Omega” 记 法 通 
常用 来 表示 最 坏 情况 下 的 性 能 下 限 ， 而 “大 Theta” 记 法 则 通常 用 于 描述 算法 的 最 优 性 能 ， 即 不 存 
在 有 更 好 的 最 坏 情 况 下 的 渐进 增长 数量 级 的 算法 。 算 法 的 最 优 性 显然 是 实际 应 用 中 值得 考虑 的 一 点 ， 
但 你 会 看 到 ， 还 有 其 他 许多 因素 需要 考虑 。 

渐进 性 能 的 上 限 难道 不 重要 吗 ? 

重要 ， 但 我 们 希望 讨论 的 是 给 定 成 本 模型 下 所 有 语句 执行 的 准确 频率 ， 因 为 它们 能 够 提供 更 多 关于 
算法 性 能 的 信息 , 而 且 从 我 们 所 讨论 的 算法 中 获取 这 些 频率 是 可 能 的 。 例如, 我 们 可 以 说 “ThreeSum 
访问 数组 的 次 数 为 ~ N/2”， 以 及 “在 最 坏 情况 下 cnt++ 执行 的 次 数 为 ~ N/V6”， 它 们 虽然 有 些 元 
长 但 给 出 的 信息 比 “ThreeSum 的 运行 时 间 为 OOV)” 要 多 得 多 。 

当 一 个 算法 的 运行 时 间 的 增长 数量 级 为 NogN 时 ， 根 据 双 倍 测试 会 得 到 它 的 运行 时 间 为 ~ a 的 猜想 
(其 中 a 为 常数 ) 。 这 有 问题 吗 ? 

需要 注意 的 是 ， 我 们 不 能 根据 实验 数据 推测 它们 所 符合 的 某 个 特定 的 数学 模型 。 但 如 果 我 们 只 是 在 
预测 性 能 , 这 并 不 是 什么 问题 。 例 如 , 当 N 在 16 000 到 32 000 之 间 时 , 14N 和 NlgN 的 图 像 非常 接近 。 
这 些 数据 同时 与 两 条 曲线 吻合 。 随 着 的 增 大 ， 两 条 曲线 更 为 接近 。 想 要 用 实验 来 检验 一 个 算法 的 
运行 时 间 是 线性 对 数 级 别 而 非 线性 级 别 是 要 费 一 番 工 夫 的 。 

int[] a = new int[N] 表示 N 次 数组 访问 吗 (所 有 数组 元 素 均 会 被 初始 化 为 0) ? 

大 多 数 情况 下 是 的 ， 我 们 在 本 书 中 也 是 这 样 假 设 的 ， 不 过 复杂 编译 器 的 实现 会 在 遇 到 大 型 稀 朴 数组 
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时 尽力 避免 这 种 开销 。 


1.4.2 ”修改 ThreeSum ， 正 确 处 理 两 个 较 大 的 int 值 相 加 可 能 溢出 的 情况 。 
1.4.3 ”修改 DoublingTest， 使 用 StdDraw 产生 类 似 于 正文 中 的 标准 图 像 和 对 数 图 像 ， 根 据 需 要 调整 比例 


SS 


使 图 像 总 能 够 充满 窗口 的 大 部 分 区 域 。 


1.4.4 ”参照 表 1.4.4 为 TwoSum 建立 一 张 类 似 的 表格 。 
1.4.5 给 出 下 面 这 些 量 的 近似 : 


a.N+1 
b.1+1/N 
c. (1+1/N)(1+2/N) 
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1.4.6 
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1.4.7 
1.4.8 


1.4.9 


1.4.10 


1.4.11 


1.4.12 


1.4.13 
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图 提高 


d. 2N’ 


基 础 


_1S5N+HN 


e. le(2N)/leN 
f lg(NV +1)/lgeN 
g. NOV27 
给 出 以 下 代码 段 的 运行 时 间 的 增长 数量 级 ( 作为 N 的 函数 ) : 
aint sum = 0; 
for (int n = N; n > 0; n /= 2) 


forCint 1 = 0; 1 < n; i++) 


SUm++; 


b.int sum = 0; 
for (Cint 1 = 1; i < N; i *= 2) 


for (Cint j = 0; j < i; j++) 


SUm++; 


c. int sum = 0; 
for (int i1 = 1; i < N; i *= 2) 


for (int j = 0; j < Ni j++) 


SUum++; 


以 统计 涉及 输入 数字 的 算术 操作 ( 和 比较 ) 的 成 本 模型 分 析 ThreeSum。 
编写 一 个 程序 ， 计 算 输入 文件 中 相等 的 整数 对 的 数量 。 如 果 你 的 第 一 个 程序 是 平方 级 别 的 ， 请 继 
续 思 考 并 用 Array .sort() 给 出 一 个 线性 对 数 级 别 的 解答 。 


已 知 上 出 


倍率 实验 可 得 某 个 程序 的 时 间 倍率 为 2 且 问 题 规模 为 No 时 程序 的 运行 时 间 为 7， 给 出 一 


个 公式 预测 该 程序 在 处 理 规模 为 的 问题 时 所 需 的 运行 时 间 。 
修改 二 分 查找 算法 ,使 之 总 是 返回 和 被 查找 的 键 匹配 的 索引 最 小 的 元 素 ( 且 仍 然 能 够 保证 对 数 


级 别 


的 运行 时 间 ) 。 


为 StaticSETofInts (请 见 表 1.2.15 ) 添加 一 个 实例 方法 howMany() ， 找 出 给 定 键 的 出 现 次 数 


且 在 


最 坏 情 况 下 所 需 的 运行 时 间 和 logX 成 正比 。 


一 个 程序 ， 有 序 打印 给 定 的 两 个 有 序数 组 (含有 NN 个 int 值 ) 中 的 所 有 公共 元 素 ， 程 序 在 


编写 
最 坏 情况 下 所 需 的 运行 时 间 应 该 入 成 正比 。 
根据 


正文 中 的 假设 分 别 给 出 表示 以 下 数据 类 型 的 一 个 对 象 所 需 的 内 存量 : 


a. Accumulator 


b. Transaction 


c. FixedCapacityStackOfStrings， 其 容量 为 C 日 含有 NN 个 元 素 
d. Point2D 

e. IntervallD 

f. Interval2D 

g. Double 


题 


1.4.14 4-sum。 为 4-sum 设计 一 个 算法 。 
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1.4.15 快速 3-sum。 作 为 热身 ， 使 用 一 个 线性 级 别 的 算法 〈 而 非 基于 二 分 查找 的 线性 对 数 级 别 的 算法 ) 
实现 TwoSumFaster 来 计算 已 排序 的 数组 中 和 为 0 的 整数 对 的 数量 。 用 相同 的 思想 为 3-sum 问题 
给 出 一 个 平方 级 别 的 算法 。 

1.4.16 最 接近 的 一 对 (一 维 )。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 接近 的 值 : 两 者 之 差 ( 绝对 值 ) 最 小 的 两 个 数 。 程 序 在 最 坏 情 况 下 所 需 的 运行 时 间 应 该 
是 线性 对 数 级 别 的 。 

1.4.17 最 遂 远 的 一 对 (一 维 )。 编写 一 个 程序 ， 给 定 一 个 含有 NN 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 送 远 的 值 : 两 者 之 差 ( 绝对 值 ) 最 大 的 两 个 数 。 程 序 在 最 坏 情 况 下 所 需 的 运行 时 间 应 该 
是 线性 级 别 的 。 

1.4.18 ”数组 的 局 部 最 小 元 素 。 编 写 一 个 程序 ， 给 定 一 个 含有 NN 个 不 同 整数 的 数组 ， 找 到 一 个 局 部 最 
小 元 素 : 满足 a[i]<a[i - 1]， 有 日 a[i]<a[i+1] 的 索引 i。 程 序 在 最 坏 情 况 下 所 需 的 比较 次 数 
为 ~ 2lgN。 

答 : 检查 数组 的 中 间 值 a[N/2] 以 及 和 它 相 邻 的 元 素 a[N/2-1] 和 a[N/2+1]。 如 果 a[N/2] 是 一 

个 局 部 最 小 值 则 算法 终止 ; 否则 则 在 较 小 的 相 邻 元 素 的 半边 中 继续 查找 。 

1.4.19 矩阵 的 局 部 最 小 元 素 。 给 定 一 个 含有 NM 个 不 同 整 数 的 NxN 数组 a[] 。 设 计 一 个 运行 时 间 和 
成 正比 的 算法 来 找 出 一 个 局 部 最 小 元 素 : 满足 a[i][j]<a[i+1][j]、a[i][j]<a[i][j+1]、 
a[i [j]<a[i-1] [j] 以 及 a[i][j]<a[i][j-1] 的 索引 i 和 j。 程序 的 运行 时 间 在 最 坏 情 况 下 应 
该 和 成 正比 。 

1.4.20 双 调 查找 。 如 果 一 个 数组 中 的 所 有 元 素 是 先 递增 后 递减 的 ， 则 称 这 个 数组 为 双 调 的 。 编 写 一 个 
程序 ， 给 定 一 个 含有 V 个 不 同 int 值 的 双 调 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 程 序 在 最 坏 情 
况 下 所 需 的 比较 次 数 为 ~3lgN。 

1.4.21 无 重复 值 之 中 的 二 分 查找 。 用 二 分 查找 实现 StaticSETofInts ( 请 见 表 1.2.15 ) ,保证 contains 0) 


的 运行 时 间 为 ~lgR， 其 中 R 为 参数 数组 中 不 同 整数 的 数量 。 Ey 

1.4.22 仅 用 加 减 实现 的 二 分 查找 (Mihai Patrascu ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 V 个 不 同 int 值 的 
按照 升序 排列 的 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 只 能 使 用 加 法 和 减法 以 及 常数 的 额外 内 存 
空间 。 程 序 的 运行 时 间 在 最 坏 情 况 下 应 该 和 1logX 成 正比 。 

答 : 用 斐 波 纳 契 数 代替 2 的 寡 ( 二 分 法 ) 进 行 查找 。 用 两 个 变量 保存 和 Fi 并 在 [i, 二 攀 之 间 查 找 。 
在 每 一 步 中 ， 使 用 减法 计算 fF ,， 检 查 计 F, 处 的 元 素 ， 并 根据 结果 将 搜索 范围 变 为 [ 上 Fo] 或 
是 [itF,, itFi ytPii]o 

1.4.23 ”分 数 的 二 分 查找 。 设 计 一 个 算法 ,使 用 对 数 级 别 的 比较 次 数 找 出 有 理 数 p/g， 其 中 0<p<q<N， 比 
较 形 式 为 给 定 的 数 是 否 小 于 xX? 提示 : 两 个 分 母 均 小 于 NN 的 有 理 数 之 差 不 小 于 I/V 。 

1.4.24 ” 扔 鸡蛋 。 假 设 你 面前 有 一 栋 N 层 的 大 楼 和 许多 鸡蛋 ,假设 将 鸡蛋 从 下 层 或 者 更 高 的 地 方 扔 下 鸡 

集 才 会 控 碎 ， 否 则 则 不 会 。 首 先 ， 设 计 一 种 策略 来 确定 五 的 值 ， 其 中 扔 ~lgX 次 鸡蛋 后 摔 碎 的 鸡 

蛋 数量 为 ~lgN， 然 后 想 办 法 将 成 本 降低 到 ~2lgF。 

1.4.25 扎 两 个 鸡蛋 。 和 上 一 题 相 同 的 问题 ,但 现在 假设 你 只 有 两 个 鸡蛋 ， 而 你 的 成 本 模型 则 是 扔 鸡蛋 
的 次 数 。 设 计 一 种 策略 ， 最 多 扔 2YN 次 鸡蛋 即 可 判断 出 五 的 值 ， 然 后 想 办 法 把 这 个 成 本 降低 到 
~ CVF 次。 这 和 查找 命中 ( 鸡蛋 完好 无 损 ) 比 未 命中 (鸡蛋 被 摔 碎 ) 的 成 本 小 得 多 的 情形 类 似 。 

1.4.26 三 点 共 线 。 假设 有 一 个 算法 ,接受 平面 上 的 入 个 点 并 能 够 返回 在 同一 条 直线 上 的 三 个 点 的 组 数 。 

证 明 你 能 够 用 这 个 算法 解决 3-sum 问题 。 强 烈 提示 : 使 用 代数 证 明 当 目 仅 当 atbtc=0 时 (a, a)、 


(b,b ) 和 (c, c) 在 同一 条 直线 上 。 211 
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1.4.27 


1.4.28 


1.4.29 


1.4.30 


1.4.31 


1.4.32 


1.4.33 


1.4.34 


1.4.35 


两 个 栈 实现 的 队列 。 用 两 个 栈 实现 一 个 队列 ， 使 得 每 个 队列 操作 所 需 的 堆栈 操作 均 摊 后 为 一 个 
常数 。 提 示 : 如 果 将 所 有 元 素 压 和 人 栈 再 弹出 ， 它 们 的 顺序 就 被 颠倒 上。 如 果 再 次 重复 这 个 过 程 ， 


它们 的 顺序 则 会 复原 。 


一 个 队列 实现 的 栈 。 使 用 一 个 队列 实现 一 个 栈 , 使 得 每 个 栈 操作 所 需 的 队列 操作 数量 为 线性 级 别 。 
提示 : 要 删除 一 个 元 素 ， 将 队列 中 的 所 有 元 素 一 一 出 列 再 和 人 列 ， 除 了 最 后 一 个 元 素 ， 应 该 将 它 


删除 并 返回 〈 这 种 方法 的 确 非常 低 效 ) 。 


两 个 栈 实现 的 steque。 用 两 个 栈 实现 一 个 steque ( 请 见 练习 1.3.32 ) ， 使 得 每 个 steque 操作 所 需 


的 栈 操 均 捧 后 为 一 个 常数 。 


一 个 栈 和 一 个 steque 实现 的 双向 队列 。 使 用 一 个 栈 和 steque 实现 一 个 双 回 队列 ( 请 见 练习 1.3.32 ) ， 


使 得 双向 队列 的 每 个 操作 所 需 的 栈 和 steque 操作 均 摊 后 为 一 个 常数 。 


三 个 栈 实现 的 双向 队列 。 使 用 三 个 栈 实 现 一 个 双向 队列 ， 使 得 双向 队列 的 每 个 操作 所 需 的 栈 操 


作 均 摊 后 为 一 个 常数 。 


均 摊 分 析 。 请 证 明 , 对 一 个 基于 大 小 可 变 的 数组 实现 的 空 栈 的 MM 次 操作 访问 


数组 的 次 数 和 MM 成 正比 。 


32 位 计算 机 中 的 内 存 需 求 。 给 出 32 位 计算 机 中 Integer、Date、Counter、int[]、double[]、 
double[][] 、String、Node 和 Stack ( 链表 表示 ) 对 象 所 需 的 内 存 ， 设 引用 需要 4 字 节 ， 表 示 


对 象 开 销 为 8 字 节 ， 所 需 内 存 均 会 被 填充 为 4 字 节 的 倍数 。 
热 还 是 冷 。 你 的 目标 是 猜 出 1 到 之 间 的 一 个 秘密 的 整数 。 每 次 猜 完 一 


个 整数 后 ， 你 会 知道 你 的 


猜测 和 这 个 秘密 整数 是 否 相 等 ( 如 果 是 则 游戏 结束 ) 。 如 果 不 相等 ， 你 会 知道 你 的 猜测 相 比 上 一 
次 猜测 距离 该 秘密 整数 是 比较 热 〈 接近 ) 还 是 比较 冷 ( 远离 ) 。 设 计 一 个 算法 在 ~2lgN 之 内 找到 


这 个 秘密 整数 ， 然 后 再 设计 一 个 算法 在 ~llgN 之 内 找到 这 个 秘密 整数 。 


下 压 栈 的 时 间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 时 间 成 本 ， 其 中 成 


本 模型 会 同时 记录 数据 引用 的 数量 ( 指向 被 压 和 人 栈 之 中 的 数据 的 引用 ， 
可 能 是 某 个 对 象 的 实例 变量 ) 和 被 创建 的 对 象 数量 。 


下 压 栈 〈 的 各 种 实现 ) 的 时 间 成 本 


指向 的 可 能 是 数组 ， 也 


压 入 N 个 int 值 的 成 本 
数据 结构 元 素 类 型 
数据 的 引用 创建 的 对 象 
其 二 链表 int 2N N 
ee Integer 3N 2N 
基于 大 小 可 变 的 数组 ee pd 
Integer ~5N ~N 


1.4.36 下 压 栈 的 空间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 空间 成 本 ， 其 中 链 


表 的 节点 为 一 个 静态 的 垦 套 类 ， 从 而 避免 非 静 态 披 套 类 的 开销 。 


下 压 栈 〈 的 各 种 实现 ) 的 空间 成 本 


数据 结构 元 素 类 型 NN 个 int 值 所 需 的 空间 〈 字 节 ) 
int ~32N 
基于 链表 
Integer ~56N 
int ~4N 到 ~ 16N 之 间 
基于 大 小 可 变 的 数组 出 


Integer ~ 32N 到 ~ 56N 之 间 
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1.4.37 ”自动 装 箱 的 性 能 代价 。 通 过 实验 在 你 的 计算 机 上 计算 使 用 自动 装 箱 和 自动 拆 箱 所 付出 的 性 能 代 
价 。 实 现 一 个 FixedCapacityStackOfInts， 并 使 用 类 似 DoublingRatio 的 用 例 比 较 它 和 泛 型 
FixedCapacityStack<Integer> 在 进行 大 量 push() 和 pop0) 操作 时 的 性 能 。 

1.4.38 3-sum 的 初级 算法 的 实现 。 通 过 实验 评估 以 下 ThreeSum 内 循环 的 实现 性 能 : 
for (Cint 1 = 0; i < Ni i++) 

for (Cint j = 0; j < N; j++) 
for (int k = 0; k < N; k++) 
if (i < j & j < k) 
if (a[i] + a[j] + a[k] == 0) 
Cnt++; 


为 此 实现 另 一 个 版 本 的 DoublingTest， 计 算 该 程序 和 ThreeSum 的 运行 时 间 的 比例 。 

1.4.39 改进 倍率 测试 的 精度 。 修 改 DoublingRatio， 使 它 接受 另 一 个 命令 行 参数 来 指定 对 于 每 个 N 值 调 
用 timeTrial0) 方法 的 次 数 。 用 程序 对 每 个 YX 执行 10.100 和 1000 遍 实验 并 评 佑 结果 的 准确 程度 。 

1.4.40 随机 输入 下 的 3-sum 问题 。 猜 测 找 出 X 个 随机 int 值 中 和 为 0 的 整数 三 元 组 的 数量 所 需 的 时 间 
并 验证 你 的 猜想 。 如 果 你 擅长 数学 分 析 ， 请 为 此 问题 给 出 一 个 合适 的 数学 模型 ， 其 中 所 有 值 均 
匀 地 分 布 在 -M 到 M 之 间 ， 且 M 不 能 是 一 个 小 整数 。 

1.4.41 运行 时 间 。 使 用 DoublingRatio 估计 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 
及 ThreeSum 处 理 一 个 含有 100 万 个 整数 的 文件 所 需 的 时 间 。 

1.4.42 ”问题 规模 。 设 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 及 ThreeSum 能 够 处 理 
的 问题 的 规模 为 2x10 个 整数 。 使 用 Doub lingRatio 估计 PP 的 最 大 值 。 

1.4.43 大 小 可 变 的 数组 与 链表 。 通 过 实验 验证 对 于 栈 来 说 基于 大 小 可 变 的 数组 的 实现 快 于 基于 链表 的 
实现 的 猜想 (请 见 练习 1.4.35 和 练习 1.4.36 ) 。 为 此 实现 另 一 个 版 本 的 DoublingRatio， 计 算 两 |214 
个 程序 的 运行 时 间 的 比例 。 

1.4.44 生日 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 整数 N 作为 参数 并 使 用 StdRandom.uniform() 生 
成 一 系列 0 到 NM-1 之 间 的 随机 整数 。 通 过 实验 验证 产生 第 一 个 重复 的 随机 数 之 前 生成 的 整数 数 
量 为 ~ VrV/2 。 

1.4.45 优惠 券 收集 问题 。 用 和 上 一 题 相同 的 方式 生成 随机 整数 。 通 过 实验 验证 生成 所 有 可 能 的 整数 值 
所 需 生 成 的 随机 数 总 量 为 ~VEHw。 
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1.5 ”案例 研究 : union-find 算法 


为 了 说 明 我 们 设计 和 分 析 算 法 的 基本 方法 ,我 们 现在 来 学 习 一 个 具体 的 例子 。 我 们 的 目的 是 强 
调 以 下 几 点 : 
口 优秀 的 算法 因为 能 够 解决 实际 问题 而 变 得 更 为 重要 ; 
口 高 效 算法 的 代码 也 可 以 很 简单 ; 
口 理解 某 个 实现 的 性 能 特点 是 一 项 有 趣 而 令 人 满足 的 挑战 ; 
口 在 解决 同一 个 问题 的 多 种 算法 之 间 进 行 选择 时 ， 科 学 方法 是 一 种 重要 的 工具 ; 
口 迭代 式 改 进 能 够 让 算法 的 效率 越 来 越 高 。 
我 们 会 在 本 书 中 不 断 巩固 这 些 主题 思想 。 本 节 中 的 例子 是 一 个 原型 ， 它 将 会 为 我 们 用 相同 的 方 
法 解决 许多 其 他 问题 打下 坚实 的 基础 。 
我 们 将 要 讨论 的 问题 并 非 无 足 轻重 ， 它 是 一 个 非常 基础 的 计算 性 问题 ， 而 我 们 开发 的 解决 方案 
将 会 用 于 多 种 实际 应 用 之 中 ， 从 物理 化 学 中 的 渗流 到 通信 网 络 中 的 连通 性 等 。 我 们 首先 会 给 出 一 个 
简单 的 方案 ， 然 后 对 它 的 性 能 进行 研究 并 由 此 得 出 应 该 如 何 继续 改进 我 们 的 算法 。 


1.5.1 动态 连通 性 es 
首先 我 们 详细 地 说 明 一 下 问题 : 问题 的 输入 是 一 列 整数 ms 


对 ， 其 中 每 个 整数 都 表示 一 个 某 种 类 型 的 对 象 ， 一 对 整数 p 和 
q 可 以 被 理解 为 “p 和 9q 是 相连 的 ”。 我 们 假设 “相连 ”是 本 
一 种 等 价 关系 ， 这 也 就 意味 着 它 具 有 : 
口 自 反 性 : p 和 p 是 相连 的 ; 6 5 
口 对 称 性 : 如 果 p 和 q 是 相连 的 ,那么 q 和 p 也 是 相连 的 
口 传递 性 : 如 果 p 和 9q 是 相连 的 且 q 和 r 是 相连 的 ， 
那么 p 和 r 也 是 相连 的 。 2 1 
等 价 关 系 能 够 将 对 象 分 为 多 个 等 价 类 。 在 这 里 ， 当 且 仅 
当 两 个 对 象 相连 时 它们 才 属 于 同一 个 等 价 类 。 我 们 的 目标 是 
编写 一 个 程序 来 过 滤 掉 序列 中 所 有 无 意义 的 整数 对 ( 两 个 整 
数 均 来 自 于 同一 个 等 价 类 中 ) 。 换 名 话说 ， 当 程序 从 输入 中 


读 取 了 整数 对 p 9 时 ， 如 果 已 知 的 所 有 整数 对 都 不 能 说 明 p 7 ? 人 
和 是 相连 的 ， 那 么 则 将 这 一 对 整数 写 入 到 输出 中 。 如 果 已 连 的 整数 对 


知 的 数据 可 以 说 明 p 和 9q 是 相连 的 ， 那么 程序 应 该 忽略 p 9q 
这 对 整数 并 继续 处 理 输 入 中 的 下 一 对 整数 。 图 1.5.1 用 一 个 


216| ”例子 说 明了 这 个 过 程 。 为 了 达到 所 期 望 的 效果 ， 我 们 需要 设 


计 一 个 数据 结构 来 保存 程序 已 知 的 所 有 整数 对 的 足够 多 的 信 
息 ， 并 用 它们 来 判断 一 对 新 对 象 是 否 是 相连 的 。 我 们 将 这 个 。。 ;生肖 分 量 

问题 通俗 地 叫做 动态 连通 性 问题 .这 个 问题 可 能 有 以 下 应 用 。 

We 图 1.5.1 动态 连通 性 问题 ( 另 见 彩 插 ) 
输入 中 的 整数 表示 的 可 能 是 一 个 大 型 计算 机 网 络 中 的 计算 机 ， 而 整数 对 则 表示 网 络 中 的 连接 。 
这 个 程序 能 够 判定 我 们 是 否 需要 在 p 和 q 之 间架 设 一 条 新 的 连接 才能 进行 通信 ， 或 是 我 们 可 以 通过 
已 有 的 连接 在 两 者 之 间 建立 通信 线路 ; 或 者 这 些 整数 表示 的 可 能 是 电子 电路 中 的 触 点 ， 而 整数 对 表 
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示 的 是 连接 触 点 之 间 的 电路 ; 或 者 这 些 整数 表示 的 可 能 是 社交 网 络 中 的 人 ， 而 整数 对 表示 的 是 朋友 
关系 。 在 此 类 应 用 中 ， 我 们 可 能 需要 处 理 数 百 万 的 对 象 和 数 十 亿 的 连接 。 
1.5.1.2 ”变量 名 等 价 性 

某 些 编程 环境 允许 声明 两 个 等 价 的 变量 名 ( 指向 同一 个 对 象 的 多 个 引用 ) 。 在 一 系列 这 样 的 声 
明之 后 ,系统 需要 能 够 判别 两 个 给 定 的 变量 名 是 否 等 价 。 这 种 较 早 出 现 的 应 用 ( 如 FORTRAN 语言 
推动 了 我 们 即将 讨论 的 算法 的 发 展 。 
1.5.1.3 ”数学 集合 

在 更 高 的 抽象 层次 上 ， 可 以 将 输入 的 所 有 整数 看 做 属于 不 同 的 数学 集合 。 在 处 理 一 个 整数 对 p 
q 时 ,我 们 是 在 判断 它们 是 否 属于 相同 的 集合 。 如 果 不 是 ， 我 们 会 将 p 所 属 的 集合 和 q 所 属 的 集合 
归并 到 同一 个 集合 。 

为 了 进一步 限定 话题 ， 我 们 会 在 本 节 以 下 内 容 中 使 用 网 络 方面 的 术语 ， 将 对 象 称 为 触 点 ， 将 整 
数 对 称 为 连接 ， 将 等 价 类 称 为 连通 分 量 或 是 简称 分 量 。 简 单 起 见 ， 假 设 我 们 有 用 0 到 N-1 的 整数 所 
表示 的 个 触 点 。 这 样 做 并 不 会 降低 算法 的 通用 性 ,因为 我 们 在 第 3 章 中 将 会 学 习 一 组 高 效 的 算法 ， 
将 整数 标识 符 和 任意 名 称 关 联 起 来 。 

图 1.5.2 是 一 个 较 大 的 例子 ， 意 在 说 明 连 通 性 问题 的 难度 。 你 很 快 就 可 以 找到 图 左 侧 中 部 一 个 


只 含有 一 个 触 点 的 分 量 ， 以 及 左下 方 一 个 含有 5 个 触 点 的 分 量 ， 但 让 你 验证 其 他 所 有 触 点 是 否 都 是 |217 


相互 连通 的 可 能 就 有 些 困 难 了 。 对 于 程序 来 说 ， 这 个 任务 更 加 困难 ， 因 为 它 所 处 理 的 只 有 触 点 的 名 
字 和 连接 而 并 不 知道 触 点 在 图 像 中 的 几何 位 置 。 我 们 如 何 才 能 快速 知道 这 种 网 络 中 任意 给 定 的 两 个 
触 点 是 否 相连 呢 ? 


图 1.5.2 中 等 规模 的 连通 性 问题 举例 (625 个 触 点 ，900 条 边 ，3 个 连通 分 量 ) 
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我 们 在 设计 算法 时 面 对 的 第 一 个 任务 就 是 精确 地 定义 问题 。 我 们 希望 算法 解决 的 问题 越 大 ， 
它 完成 任务 所 需 的 时 间 和 空间 可 能 就 越 多 。 我 们 不 可 能 预先 知道 这 其 间 的 量化 关系 ， 而 且 我 们 通 
向 只 会 在 发 现 解决 问题 很 困难 ， 或 是 代价 巨大 ， 或 是 在 幸运 地 发 现 算 法 所 提供 的 信息 比 原 问题 所 
需要 的 更 加 有 用 时 修改 问题 。 例 如 ， 连 通 性 问题 只 要 求 我 们 的 程序 能 够 判别 给 定 的 整数 对 p q 是 
否 相 连 ， 但 并 没有 要 求 给 出 两 者 之 间 的 通路 上 的 所 有 连接 。 这 样 的 要 求 会 使 问题 更 加 困难 ， 并 得 
到 男 一 组 不 同 的 算法 ， 我 们 会 在 4.1 节 中 学 习 它 们 。 

为 了 说 明 问题 ， 我 们 设计 了 一 份 API 来 封装 所 需 的 基本 操作 : 初始 化 、 连 接 两 个 触 点 、 判 断 
包含 某 个 触 点 的 分 量 、 判 断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 中 以 及 返回 所 有 分 量 的 数量 。 详 细 的 
API 如 表 1.5.1 所 示 。 
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表 1.5.1 union-find 算法 的 API 


public class UF 


UFCint N) 以 整数 标识 (0 到 N-1 ) 初始 化 W 个 触 点 
void union(int p, int q) 在 p 和 9q 之 间 添 加 一 条 连接 
int findCint p) p (0 到 N-1) 所 在 的 分 量 的 标识 符 
boolean connected(int p, int q) 如 果 p 和 9q 存在 于 同一 个 分 量 中 则 返回 true 
int count() 连通 分 量 的 数量 


如 果 两 个 触 点 在 不 同 的 分 量 中 ，unionQ 操作 会 将 两 个 分 量 归并 。findQ 操作 会 返回 给 定 
触 点 所 在 的 连通 分 量 的 标识 符 。connected() 操作 能 够 判断 两 个 触 点 是 否 存 在 于 同一 个 分 量 之 
中 。count( 方法 会 返回 所 有 连通 分 量 的 数量 。 一 开始 我 们 有 N 个 分 量 ， 将 两 个 分 量 归 并 的 每 次 
union() 操作 都 会 使 分 量 总 数 减 一 。 
我 们 马上 就 将 看 到 ， 为 解决 动态 连通 性 问题 设计 算法 的 任务 转化 为 了 实现 这 份 API。 所 有 的 实 
现 都 应 该 : 
口 定义 一 种 数据 结构 表示 已 知 的 连接 ; 
口 基于 此 数据 结构 实现 高 效 的 union()、find()、connected() 和 count() 方法 。 
众所周知 ， 数 据 结 构 的 性 质 将 直接 影响 到 算法 的 效率 ， 因 此 数据 结构 和 算法 的 设计 是 紧密 相关 
的 。API 已 经 说 明 触 点 和 分 量 都 会 用 int 值 表 示 ， 所 以 我 们 可 以 用 一 个 以 触 点 为 索引 的 数组 id[] 
219| ”作为 基本 数据 结构 来 表示 所 有 分 量 。 我 们 将 使 用 分 量 中 的 某 个 触 点 的 名 称 作为 分 量 的 标识 符 ， 因 此 
你 可 以 认为 每 个 分 量 都 是 由 它 的 触 点 之 一 所 表示 的 。 一 开始 ， 我 们 有 N 个 分 量 ， 每 个 触 点 都 构成 了 
一 个 只 含有 它 自己 的 分 量 ， 因 此 我 们 将 id[i] 的 值 初始 化 为 i， 其 中 1i 在 0 到 N-1 之 间 。 对 于 每 个 
触 点 1， 我 们 将 find0) 方法 用 来 判定 它 所 在 的 分 量 所 需 的 信息 保存 在 id[i] 之 中 。connectedQ) 
方法 的 实现 只 用 一 条 语句 find(p) == find(q)， 它 返回 一 个 布尔 值 ， 我 们 在 所 有 方法 的 实现 中 都 
会 用 到 connected 0 方法 。 
总 之 ,我 们 的 起 点 就 是 算法 1.5。 我 们 维护 了 两 个 实例 变量 ， 一 个 是 连通 分 量 的 个 数 ， 一 个 是 
数组 id[] 。find() 和 union() 的 实现 是 本 节 剩 余 内 容 将 要 讨论 的 主题 。 


算法 1.5 ”union-find 的 实现 


public class UF 


{ 
private int[] id; // 分 量 id (以 触 点 作为 索引 ) 
private int count; // 分 量 数 量 


} 


这 份 代码 是 我 们 对 UF 的 实现 。 它 维护 了 一 个 整 型 数组 id[] ， 使 得 findQ 对 于 处 在 同 
量 中 的 触 点 均 返 回 相 同 的 整数 值 。unionQ 〇 方法 必须 保证 这 一 点 。 


public UFCint N) 
{ // 初始 化 分 量 id 数 组 
count = N; 
id = new int[N]; 
for (Cint 1 = 0; i < Ni i++) 
id[i] = i; 
} 
public int countQO) 
{ return count; 了 
public boolean connected(int p, int q) 
{ return find(p) == find(q); 了 
public int findCint p) 
public void union(int p, int q) 
// 请 见 1.5.2.1 节 用 例 (quick-find ) 、 
public static void main(String[] args) 
{ // 解决 由 StdIn 得 到 的 动态 连通 性 问题 
int N = StdIn.readInt(); 
UF uf = new UFCN) ; 
while (!StdIn.isEmpty()) 
{ 
int p = 
int 可 三 


StdIn.readInt() ; 
StdIn.readInt() ; 


if (uf.connected(p, q)) continue; 


uf.union(p, q); 
Stdout.printlnCp + " " + q); 
3 


StdOut.printlin(Cuf.count() + "compon 
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// 读 取 触 点 数量 
// 初始 化 N 个 分 量 


// 读 取 整数 对 


// 归并 分 量 
// 打印 连接 


ents"); 


Se 


FOOD WwW 上 


java UF < tinyUF.txt 


卢 记 口上 电表 co ww 


Components 


1.5.2.3 节 用 例 (quick-union ) 和 算法 1.5 (加 权 quick-union ) 


// 如 果 已 经 连通 则 忽略 


个 连通 分 


为 了 测试 API 的 可 用 性 并 方便 开发 ， 我 们 在 main0) 方法 
中 包含 了 一 个 用 例 用 于 解决 动态 连通 性 问题 。 它 会 从 输入 中 读 


取 N 值 以 及 一 系列 整数 对 ， 并 对 每 一 对 整数 调 


] connected() 


方法 : 如 果 某 一 对 整数 中 的 两 个 触 点 已 经 连通 ， 程 序 会 继续 


处 理 下 一 对 数据 ; 如果 不 连通 ， 程 序 会 调 


j unionQ 方法 


并 打印 这 对 整数 。 在 讨论 实现 之 前 ， 我 们 也 准备 了 一 些 测试 


数据 (如 右 侧 的 代码 框 所 示 ) : 
触 点 和 11 条 连接 ， 图 1.5.1 使 


的 就 是 它 ; 


文件 tinyUF.txt 含有 10 个 
文件 mediumUF. 


txt 含 有 625 个 触 点 和 900 条 连接 ， 如 图 1.5.2 所 示 ; 例子 文 
件 largeUF.txt 含 有 100 万 个 触 点 和 200 万 条 连接 。 我 们 的 目 
标 是 在 可 以 接受 的 时 间 范 围 内 处 理 和 1argeUF.txt 规模 类 似 的 


输入 。 


为 了 分 析 算 法 ， 我 们 将 重点 放 在 不 同 算法 访问 任意 数组 元 素 


的 总 次 数 上 。 我 们 这 样 做 相当 于 隐 式 地 猜测 各 种 算法 在 一 台 特 定 


的 计算 机 上 的 运行 时 间 在 这 个 量 乘 以 某 个 常数 的 范围 之 内 。 这 个 


猜想 基于 代码 ， 用 实验 验证 它 并 不 困 
想 是 算法 比较 的 一 个 很 好 的 开始 。 


作 。 我 们 将 会 看 到 ， 这 个 猜 


% more tinyUF.txt 
iQ 


OPOAONUONOOUWP 
NOPMNOCWPPUOUW 


Ba 


more mediumUF.txt 
625 

528%508 

548 523 


900 条 连接 
% more largeUF.txt 
1000000 


786321 134521 
696834 98245 


200 万 条 连接 


union-find 的 成 本 模型 。 在 研究 实现 union-find 的 API 的 各 种 算法 时 ， 我 们 统计 的 是 数组 的 访问 
次 数 (访问 任意 数组 元 素 的 次 数 ， 无 论 读 写 ) 。 


1.5.2 ”实现 


在 于 相同 的 连通 分 量 中 。 
1.5.2.1 quick-find 算法 

一 种 方法 是 保证 当 且 仅 当 id[p] 等 于 id[q] 时 p 和 q 是 连通 的 。 换 名 话说 ， 在 同一 个 连通 分 
量 中 的 所 有 触 点 在 id[] 中 的 值 必须 全 部 相同 。 这 意味 着 connected(p ，q) 只 需要 判断 id[p] == 
id[q], 当 且 仪 当 p 和 gq 在 同一 连通 分 量 中 该 语句 才 会 返回 true。 为 了 调用 union(p，9q) 确 保 这 一 点 ， 
我 们 首先 要 检查 它们 是 否 已 经 存在 于 同一 个 连通 分 量 之 中 。 如 果 是 我 们 就 不 需要 采取 任何 行动 ， 否 


则 我 们 面 对 的 情况 就 是 p 所 在 的 连通 分 量 中 的 所 有 触 点 的 id[] 值 均 为 同一 个 值 ， 而 q 所 在 的 连通 
分 量 中 的 所 有 触 点 的 id[] 值 均 为 另 一 个 值 。 要 将 两 个 分 量 合 二 为 一 ， 我 们 必须 将 两 个 集合 中 所 有 


触 点 所 对 应 的 id[] 元 素 变 为 同一 个 值 ， 如 表 1.5.2 所 示 。 为 此 ， 我 们 需要 遍历 整个 数组 ， 将 所 有 和 
id[p] 相等 的 元 素 的 值 变 为 id[q] 的 值 。 我 们 也 可 以 将 所 有 和 id[q] 相等 的 元 素 的 值 变 为 id[p] 
的 值 一 一 两 者 丝 可 。 根 据 上 述 文字 得 到 的 find(O) 和 union0) 的 代码 简单 明了 ,如 下 面 的 代码 框 所 示 。 
图 1.5.3 显示 的 是 我 们 的 开发 用 例 在 处 理 测试 数据 tinyUF.txt 时 的 完整 轨迹 。 


id 
public os no in p) pq 0123 Cr 
ecm le 和 。 
publeevondeunnionne neo 0123356789 
€ eee 3 8 3 
neapLIDe fn ; 
ee 0128856789 
所 司 的 分 量 之 中 则 不 需要 采取 任何 行动 
ss 
， 9 4 8 9 
// 将 p 的 分 量 重 命名 为 q 的 名 称 0128855788 
[oraWnir = 0 < de lengthe 让 3 2 1 1 2 
a 0 0118855788 
上 8 8 
50 0 5 
quick-find 0118800788 
72 1 6 
表 1.5.2 quick-find 概览 0118800188 
Eee 6: 1 1 0 
find() 方 法 正在 检查 id[?5] 和 id[9] 11 和 88881188 
pq 0123456789 并 :二 
5 .9 1 8 11 
id[p] 和 id[q] 不 等 ,因此 union() 
union() 方 法 需要 要 将 所 有 的 1 修改 为 8 会 将 所 有 和 id[p] 相 等 的 元 素 的 值 均 
pq 0123456789 改 为 id[q] 的 值 (加 粗 部 分 ) 
5 9 1 8 id[p] 和 id[q] 相 等 ， 不 需 
要 进行 任何 改动 


888 888 


到 1.5.3 ”quick-find 的 轨迹 
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1.5.2.2 ”quick-find 算法 的 分 析 
find() 操作 的 速度 显然 是 很 快 的 ， 因 为 它 只 需要 访问 id[] 数组 一 次 。 但 quick-find 算法 一 般 
无 法 处 理 大 型 问题 ， 因 为 对 于 每 一 对 输入 union() 都 需要 扫描 整个 id[] 数组 。 


命题 F。 在 quick-find 算法 中 ,每 次 find() 调用 只 需要 访问 数组 一 次 ， 而 归并 两 个 分 量 的 
union() 操作 访问 数组 的 次 数 在 (N+3) 到 (2N+1) 之 间 。 


证 明 。 由 代码 马上 可 以 知道 ,每 次 connected() 调用 都 会 检查 id[] 数组 中 的 两 个 元 素 是 否 相等 ， 
即 会 调用 两 次 find() 方法 。 归 并 两 个 分 量 的 union() 操作 会 调用 两 次 find()， 检查 id[] 数 
组 中 的 全 部 入 个 元 素 并 改变 它们 中 1 到 N-1 个 元 素 的 值 。 


假设 我 们 使 用 quick-find 算法 来 解决 动态 连通 性 问题 并 且 最 后 只 得 到 了 一 个 连通 分 量 ， 那 么 这 
至 少 需 要 调用 N-1 次 union()， 即 至 少 (NW+3)(N-1) ~ 入 次 数组 访问 一 一 我 们 马上 可 以 猜想 动态 连 
通 性 的 quick-find 算法 是 平方 级 别 的 。 将 这 种 分 析 推 广 我 们 可 以 得 到 ，quick-find 算法 的 运行 时 间 对 
于 最 终 只 能 得 到 少数 连通 分 量 的 一 般 应 用 是 平方 级 别 的 。 在 计算 机 上 用 倍率 测试 可 以 很 容易 验证 这 
个 猜想 (指导 性 的 例子 请 见 练习 1.5.23 ) 。 现 代 计 算 机 每 秒 钟 能 够 执行 数 亿 甚至 数 十 亿 条 指令 ， 因 
此 如 果 V 较 小 的 话 这 个 成 本 并 不 是 很 明显 。 但 是 在 现代 应 用 中 我 们 也 很 可 能 需要 人 处理 几 百 万 甚至 数 
十 亿 的 触 点 和 连接 ， 例 如 我 们 的 测试 文件 largeUF.txt。 如 果 你 还 不 相信 并 上 且 觉 得 自己 的 计算 机 足够 


快 , 请 使 用 quick-find 算法 找 出 largeUF.txt 中 所 有 整数 对 所 表示 的 连通 分 量 的 数量 。 结论 无 可 争议 ， |222 
使 用 quick-find 算法 解决 这 种 问题 是 不 可 行 的 ， 我 们 需要 寻找 更 好 的 算法 。 223 


1.5.2.3 quick-union 算法 
我 们 要 讨论 的 下 一 个 算法 的 重点 是 提高 union() 方法 的 速度 ， 它 和 quick-find 算法 是 互补 的 。 


它 也 基于 相同 的 数据 结构 一 一 以 触 点 作为 索引 的 id[] 数组 ， 但 我 们 赋予 这 些 值 的 意义 不 同 ， 我 们 
需要 用 它们 来 定义 更 加 复杂 的 结构 。 确 切 地 说 ， 每 个 触 点 所 对 应 的 id[] 元 素 都 是 同一 个 分 量 中 的 
另 一 个 触 点 的 名 称 ( 也 可 能 是 它 自己 ) 一 一 我 们 将 这 种 联系 称 为 链接 。 在 实现 find0 方法 时 ， 我 
们 从 给 定 的 触 点 开始 ， 由 它 的 链接 得 到 另 一 个 触 点 ， 再 由 这 个 触 点 的 链接 到 达 第 三 个 触 点 ， 如 此 继 
续 眼 随 着 链接 直到 到 达 一 个 根 触 点 , 即 链接 指向 自己 的 触 点 ( 你 将 会 看 到 , 这 样 一 个 触 点 必然 存在 ) 。 
当 且 仅 当 分 别 由 两 个 触 点 开始 的 这 个 过 程 到 达 

了 同一 个 根 触 点 时 它们 存在 于 同一 个 连通 分 量 private int findCint 内 

之 中 。 为 了 保证 这 个 过 程 的 有 效 性 ,我 们 需要 [人 
union(p，9q) 来 保证 这 一 点 。 它 的 实现 很 简单 : return p; 

我 们 由 p 和 9 的 链接 分 别 找到 它们 的 根 触 点 ， 。 

然后 只 需 将 一 个 根 能 点 链接 到 另 一 个 即 可 将 一 Re void nonCint ps int 9 

个 分 量 重 命名 为 男 一 个 分 量 ， 因 此 这 个 算法 叫 int pRoot = find(p); 

做 quick-union。 和 刚才 一 样 ， 无 论 是 重 命名 Wt tad; 


if (pRoot == qRoot) return; 


含有 Pp 的 分 量 还 是 重 命名 含有 9q 的 分 量 都 可 以 ， 

右 侧 的 这 段 实现 重 命名 了 p 所 在 的 分 量 。 图 1.5.5 

显示 了 quick-union 算法 在 处 理 tinyUF.txt 时 的 » 
轨迹 。 图 1.5.4 能 够 很 好 地 说 明 图 1.5.5( 见 1.5.2.4 

节 ) 中 的 轨迹 ， 我 们 接 下 来 要 讨论 的 就 是 它 。 quick-union 


id[pRoot] = qdRoot; 


Gount = 


224 


id[] 用 父 链接 的 方式 表示 了 一 片 森 林 


find() 会 随 着 链接 到 达 根 触 点 


GY pq 0123456789 
59 11 0 8 8 

(9) 人 
find(5)7 即 为 find(9) 


id[id[id[5]]] 即 为 id[id[9]] 


8 号 触 点 变 为 了 1 . | 
和 二 一 union (只 需要 修改 一 个 链接 
pq 0123456789 
29 开工 0 8 8 
8 


图 1.5.4 ”quick-union 算法 概述 


1.5.2.4 ”森林 的 表示 

quick-union 算法 的 代码 很 简洁 ， 但 有 些 难 以 理解 。 用 节点 ( 带 标签 的 圆圈 ) 表示 触 点 ， 用 从 一 个 
节点 到 另 一 个 节点 的 箭头 表示 链接 ， 由 此 得 到 数据 结构 的 图 像 表 示 使 我 们 理解 算法 的 操作 变 得 相对 容 
易 。 我 们 的 得 到 的 结构 是 树 一 一 从 技术 上 来 说 ，id[] 数组 用 父 链接 的 形式 表示 了 一 片 森 林 。 为 了 简 
化 图 表 ， 我 们 常常 会 省 略 链接 的 箭头 ( 因为 它们 的 指向 全 部 朝 上 ) 和 树 的 根 节点 中 指向 自己 的 链接 。 
tinyUFtxt 的 id[] 数组 所 对 应 的 森林 如 图 1.5.5 所 示 。 无 论 我 们 从 任何 触 点 所 对 应 的 节点 开始 跟随 链接 ， 
最 终 都 将 达到 含有 该 节点 的 树 的 根 节点 。 可 以 用 归纳 法 证 明 这 个 性 质 的 正确 性 : 在 数组 被 初始 化 之 后 ， 
每 个 节点 的 链接 都 指向 它 自己 ; 如 果 在 某 次 union() 操作 之 前 这 条 性 质 成 立 ， 那 么 操作 之 后 它 必然 也 
成 立 。 因 此 ，quick-union 中 的 find 0) 方法 能 够 返回 根 节点 所 对 应 的 触 点 的 名 称 ( 这 样 connectedQ 
才能 够 判定 两 个 触 点 是 否 在 同一 棵 树 中 ) 。 这 种 表示 方法 对 于 这 个 问题 很 实用 ， 因 为 当 且 仅 当 两 个 触 
点 存在 于 相同 的 分 量 之 中 时 它们 对 应 的 节点 才 会 在 同一 棵 树 中 。 另 外 ， 构 造 树 并 不 困难 : quick-union 
中 unionQ 的 实现 只 用 了 一 条 语句 就 将 一 个 根 节 点 变 为 另 一 个 根 节 点 的 父 节 点 ， 从 而 归并 了 两 棵 树 。 
1.5.2.5 ”quick-union 算法 的 分 析 

quick-union 算法 看 起 来 比 quick-find 算法 更 快 ， 因 为 它 不 需要 为 每 对 输入 遍历 整个 数组 。 但 它 
能 够 快 多 少 呢 ? 分 析 quick-union 算法 的 成 本 比分 析 quick-find 算法 的 成 本 更 困难 ， 因 为 这 依赖 于 输 
入 的 特点 。 在 最 好 的 情况 下 ，find() 只 需要 访问 数组 一 次 就 能 够 得 到 一 个 触 点 所 在 的 分 量 的 标识 
符 ; 而 在 最 坏 情 况 下 ， 这 需要 2N+1 次 数组 访问 ， 如 图 1.5.6 中 的 0 触 点 〈 这 个 估计 是 较为 保守 的 ， 
因为 while 循环 中 经 过 编译 的 代码 对 id[p] 的 第 二 次 引用 一 般 都 不 会 访问 数组 ) 。 由 此 我 们 不 难 
构造 一 个 最 佳 情 况 的 输入 使 得 解决 动态 连通 性 问题 的 用 例 的 运行 时 间 是 线性 级 别 的 ; 另 一 方面 ,我 
们 也 可 以 构造 一 个 最 坏 情 况 的 输入 ， 此 时 它 的 运行 时 间 是 平方 级 别 的 (请 见 图 1.5.6 和 下 面 的 命题 
G ) 。 幸 好 我 们 不 需要 面 对 分 析 quick-union 算法 的 问题 ， 我 们 也 不 会 仔细 对 比 quick-union 算法 和 
quick-find 算法 的 性 能 ， 因 为 我 们 下 面 将 会 学 习 一 种 比 两 者 的 效率 都 高 得 多 的 算法 。 目 前 ， 我 们 可 
以 将 quick-union 算法 看 做 是 quick-find 算法 的 一 种 改良 ， 因 为 它 解决 了 quick-find 算法 中 最 主要 的 
问题 (union0) 操作 总 是 线性 级 别 的 ) 。 对 于 一 般 的 输入 数据 这 个 变化 显然 是 一 次 改进 ， 但 quick- 
union 算法 仍然 存在 问题 ， 我 们 不 能 保证 在 所 有 情况 下 它 都 能 比 quick-find 算法 快 得 多 ( 对 于 某 些 输 
人 ，quick-union 算法 并 不 比 quick-find 算法 快 ) 。 


Ww 
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图 1.5.5 ”quick-union 算法 的 轨迹 (以 及 相应 的 森林 ) 


定义 。 一 棵 树 的 大 小 是 它 的 节点 的 数量 。 树 中 的 一 个 节点 的 深度 是 它 到 根 节点 的 路 径 上 的 链接 
数 。 树 的 高 度 是 它 的 所 有 节点 中 的 最 大 深度 。 


命题 G。quick-union 算法 中 的 findQ 方法 访问 数组 的 次 数 为 1 加 上 给 定 能 点 所 对 应 的 节点 的 
深度 的 两 倍 。union() 和 connected() 访问 数组 的 次 数 为 两 次 find() 操作 (如果 union() 中 
给 定 的 两 个 触 点 分 别 存 在 于 不 同 的 树 中 则 还 需要 加 1)。 


证 明 。 请 见 代 码 。 


同样 ,假设 我 们 使 用 quick-union 算法 解决 了 动态 连通 性 问题 并 最 终 只 得 到 了 一 个 分 量 ， 由 命题 
G 我 们 马上 可 以 知道 算法 的 运行 时 间 在 最 坏 情况 下 是 平方 级 别 的 。 假设 输入 的 整数 对 是 有 序 的 0-1、 
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0-2、0-3 等 ，N-1 对 之 后 我 们 的 NW 个 触 点 将 全 部 处 于 相同 的 集合 之 中 
的 高 度 为 N-1， 其 中 0 链接 到 1，! 链接 到 2，2 链接 到 3 ， 如 此 下 去 ( 请 见 


7 


且 由 quick-union 算法 得 到 的 树 


图 1.5.6 ) 。 由 命题 G 可 知 ， 


对 于 整数 对 0-i，union0) 操作 访问 数组 的 次 数 为 2i+1 ( 触 点 0 的 深度 为 i1， 触 点 i 的 深度 为 0) 。 
因此 ， 人 处 理 入 对 整数 所 需 的 所 有 人 indQ 操作 访问 数组 的 总 次 数 为 3+5+7+…+(2N-1) ~ N 。 


id[] 


pq 01234... OVDOO@... 
01 01 
1 © 
02 012 Q) 
2 中 
©O 
03 0123 G) 
3 3 4 QO) 
(D 
(0) 
04 01234 @ 
4 G) 
©Q) 
Gd 
深度 4 一 0) 
图 1.5.6 ”quick-union 算法 的 最 坏 情况 


1.5.2.6 加权 quick-union 算法 


幸好 ， 我 们 只 需 简 单 地 修改 quick-union 算法 就 能 保证 像 这 样 的 糟糕 情况 不 再 出 现 。 与 其 在 
union() 中 随意 将 一 棵 树 连接 到 另 一 棵 树 ， 我 们 现在 会 记录 每 一 棵 树 的 大 小 并 总 是 将 较 小 的 树 连 接 


站 > 全 | 


它 能 够 大 大 改进 算法 的 效率 。 我 们 将 它 称 为 加 权 quick-union 算法 ( 如 图 


的 高 度 也 远 远 小 于 未 加 权 的 版 本 所 构造 的 树 的 高 度 。 


@ 


PE 小 树 


quick-union 


2 


®) 
小 树 大 树 
一 可 能 会 将 大 
大 树 树 连接 到 小 树 
和 i 总 是 选择 将 4 
quick-union 总 是 选择 将 小 
ee 树 连 接 到 大 树 2 
@@) 人 ) 
大 树 小 树 小 树 大 树 


图 1.5.7 ”加权 quick-union 


到 较 大 的 树 上 。 这 项 改动 需要 添加 一 个 数组 和 一 些 代码 来 记录 树 中 的 节点 数 ， 如 算法 1.5 所 示 ，, 但 


1.5.7 所 示 ) 。 该 算法 在 处 


理 tinyUF.txt 时 构造 的 森林 如 图 1.5.8 中 左 侧 的 图 所 示 。 即 使 对 于 这 个 较 小 的 例子 ， 该 算法 构造 的 树 
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1.5.2.7 “加权 quick-union 算法 的 分 析 

图 1.5.8 显示 了 加 权 quick-union 算法 的 

最 坏 情况 。 其 中 将 要 被 归并 的 树 的 大 小 总 是 i < mediumUF. txt 
相等 的 〈 且 总 是 2 的 竹 ) 。 这 些 树 的 结构 看 548 523 

起 来 很 复杂 ， 但 它们 均 含 有 2 个 节点 ， 因 此 
高 度 都 正好 是 ”。 另 外 ， 当 我 们 归并 两 个 含 


3 components 


% java WeightedQuickUnionUF < largeUF .txt 


有 个 节点 的 树 时 ， 我们 得 到 的 树 含有 2” 786321 134521 
个 节点 ， 由 此 将 树 的 高 度 增 加 到 了 nt+1。 由 SOS E24 


此 推广 我 们 可 以 证 明 加 权 quick-union 算法 6 eanponants 
能 够 保证 对 数 级 别 的 性 能 。 加 权 quick-union 
算法 的 实现 如 算法 1.5 所 示 。 227 


算法 1.5〈 续 ) ”union-find 算法 的 实现 〈 加 权 quick-union 算法 ) 


public class WeightedQuickUnionUF 


: 
private int[] id; // 父 链接 数组 ( 由 触 点 索引 ) 
private int[] sz; // (由 触 点 索引 的 ) 各 个 根 节点 所 对 应 的 分 量 的 大 小 
private int count; // 连通 分 量 的 数量 
public WeightedQuickUnionUFCint N) 
{ 
count = N; 
id = new int[N]; 
for (Cint 1 = 0; i < N; i++) id[i] = ji; 
sz = new int[N]; 
for (Cint 1 = 0; i < N; i++) sz[i] = 1; 
} 
public int count() 
{ return count; } 
public boolean connected(int p, int q) 
{ return find(p) == find(q); } 
public int findCint p) 
{ // 跟随 链接 找到 根 节点 
while (p != id[p]) p = id[p]; 
return p; 
} 
public void union(int p, int q) 
{ 
int 1 = find(p); 
int j = find(q); 
if (i == j) return; 
// 将 小 树 的 根 节 点 连接 到 大 树 的 根 节点 
if (sz[i] < sz[j]) { id[i] = j; sz[j] += sz[i]; } 
else { id[j] = i; sz[i] += sz[jj]; } 
Count--; 
} 
} 


根据 正文 所 述 的 森林 表示 方法 这 段 代码 很 容易 理解 。 我 们 加 入 了 一 个 由 触 点 索引 的 实例 变量 数组 
sz[], 这样 unionQ 就 可 以 将 小 树 的 根 节 点 连接 到 大 树 的 根 节 点 。 这 使 得 算法 能 够 处 理 规模 较 大 的 问题 。 


228 
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对 照 输 入 最 坏 情 况 下 的 输入 
1 DOOOOOOOOO oooooooo 
43 ooegeeoeo 01 O00OO0 
G) (D 


2 Eh 入 .000 
8 ee 他 3 
9 4 O00 人 ,Yo 67 


OO 
OO OO 
OO 


Ty oo 


Q 
OY 


5 
OO 
(9 
(cr 
3 

Yo) 
© 

(®) 
人 

(© 
(9 
人 
(D 
HD 


图 1.5.8 加权 quick-union 算法 的 轨迹 (森林) 


命题 H。 对 于 入 个 触 点， 加权 quick-union 算法 构造 的 森林 中 的 任意 节点 的 深度 最 多 为 lgN。 
证 明 。 我 们 可 以 用 归纳 法 证 明 一 个 更 强 的 命题 ， 即 森林 中 大 小 为 大 的 树 的 高 度 最 多 为 lgk。 在 
原始 情况 下 ， 当 等 于 1 时 树 的 高 度 为 0。 根 据 归 纳 法 ,我 们 假设 大 小 为 i 的 树 的 高 度 最 多 为 
lgi， 其 中 i<k。 设 i 万 j 且 计 j=k， 当 我 们 将 大 小 为 i 和 大 小 为 的 树 归并 时 ，quick-union 算法 和 
加 权 quick-union 算法 中 触 点 与 深度 示例 如 图 1.5.9 所 示 。 小 树 中 的 所 有 节点 的 深度 增加 了 1， 


229 但 它们 现在 所 在 的 树 的 大 小 为 itj=k， 而 1+lgi=lg(i+i) < lg(i+j)=lgk， 性 质 成 立 。 


quick-union 算 法 


加 权 quick-union 算 法 


, / A A 


平均 深度 : 1.52 


平均 深度 : 5.11 


1.5.9 quick-union 算法 与 加 权 quick-union 算法 的 对 比 (100 个 触 点 ，88 次 unionO 操作 ) 


1.5 ”案例 研究 : union-find 算法 二 147 


推论 。 对 于 加 权 quick-union 算法 和 NN 个 触 点 ， 在 最 坏 情 况 下 find()、connected() 和 
union() 的 成 本 的 增长 数量 级 为 logN。 


证 明 。 在 森林 中 ， 对 于 从 一 个 节点 到 它 的 根 节点 的 路 径 上 的 每 个 节点 ， 每 种 操作 最 多 都 只 会 访 
问 数 组 常数 次 。 


对 于 动态 连通 性 问题 ,命题 H 和 它 的 推论 的 实际 意义 在 于 加 权 quick-union 算法 是 三 种 算法 中 唯 
可 以 用 于 解决 大 型 实际 问题 的 算法 。 加 权 quick-union 算法 处 理 N 个 触 点 和 MM 条 连接 时 最 多 访问 
数组 cMlgN 次 ， 其 中 c 为 常数 。 这 个 结果 和 quick-find 算法 (以 及 某 些 情况 下 的 quick-union 算法 ) 
需要 访问 数组 至 少 MN 次 形成 了 鲜明 的 对 比 。 因 此 ， 有 了 加 权 quick-union 算法 我 们 就 能 保证 能 够 在 
合理 的 时 间 范 围 内 解决 实际 中 的 大 规模 动态 连通 性 问题 。 只 需要 多 写 几 行 代码 ， 我 们 所 得 到 的 程序 
在 处 理 实际 应 用 中 的 大 型 动态 连通 性 问题 时 就 会 比 简单 的 算法 快 数 百 万 倍 。 
图 1.5.9 显示 的 是 一 个 含有 100 个 触 点 的 例子 。 从 图 中 我 们 可 以 很 明显 地 看 到 ， 加 权 quick- 
union 算法 中 远离 根 节 点 的 节点 相对 较 少 。 事 实 上 ， 只 含有 一 个 节点 的 树 被 归并 到 更 大 的 树 中 的 情 
况 很 常见 ， 这 样 该 节点 到 根 节 点 的 距离 也 只 有 一 条 链接 而 已 。 针 对 大 规模 问题 的 经 验 性 研究 告诉 我 
们 , 加 权 quick-union 算法 在 解决 实际 问题 时 一 般 都 能 在 常数 时 间 内 完成 每 个 操作 ( 如 表 1.5.3 所 示 ) 。 


我 们 可 能 很 难 找 到 比 它 效 率 更 高 的 算法 了 。 230 


表 1.5.3 各 种 union-find 算法 的 性 能 特点 


算 法 存在 N 个 触 点 时 成 本 的 增长 数量 级 〈 最 坏 情况 下 ) 


构造 函数 unionQO find() 
quick-find 算法 N N | 
quick-union 算法 N 树 的 高 度 树 的 高 度 
加 权 quick-union 算法 N lgN lgN 
使 用 路 径 压 缩 的 加 权 quick-union 算法 N 0 1 〈 均 排 成 本 ) 
理想 情况 N 1 1 


1.5.2.8 ”最 优 算法 

我 们 可 以 找到 一 种 能 够 保证 在 常数 时 间 内 完成 各 种 操作 的 算法 吗 ? 这 个 问题 非常 困难 并 且 困扰 
了 研究 者 们 许多 年 。 在 寻找 答案 的 过 程 中 ， 大 家 研究 了 quick-union 算法 和 加 权 quick-union 算法 的 
各 种 变 体 。 例 如 ， 下 面 这 种 路 径 压 缩 方法 很 容易 实现 。 理 想 情 况 下， 我 们 希望 每 个 节点 都 直接 链接 
到 它 的 根 节点 上 ， 但 我 们 又 不 想像 quick-find 算法 那样 通过 修改 大 量 链接 做 到 这 一 点 。 我 们 接近 这 
种 理想 状态 的 方式 很 简单 ， 就 是 在 检查 节点 的 同时 将 它们 直接 链接 到 根 节 点 。 这 种 方法 乍 一 看 很 激 
进 ， 但 它 的 实现 非常 容易 ， 而 且 这 些 树 并 没有 阻止 我 们 进行 这 种 修改 的 特殊 结构 : 如 果 这 么 做 能 够 
改进 算法 的 效率 ， 我 们 就 应 该 实现 它 。 要 实现 路 径 压缩 ， 只 需要 为 find() 添加 一 个 循环 ， 将 在 路 
径 上 直到 的 所 有 节点 都 直接 链接 到 根 节点 。 我 们 所 得 到 的 结果 是 几乎 完全 扁平 化 的 树 ， 它 和 quick- 
find 算法 理想 情况 下 所 得 到 的 树 非 常 接近 。 这 种 方法 即 简单 又 有 效 ， 但 在 实际 情况 下 已 经 不 太 可 能 
对 加 权 quick-union 算法 继续 进行 任何 改进 了 (请 见 练习 1.5.24 ) 。 对 该 情况 的 理论 研究 结果 非常 复 
杂 也 值得 我 们 注意 : 路 径 压 缩 的 加 权 quick-union 算法 是 最 优 的 算法 ,但 并 非 所 有 操作 都 能 在 常数 
时 间 内 完成 。 也 就 是 说 ， 使 用 路 径 压缩 的 加 权 quick-union 算法 的 每 个 操作 在 在 最 坏 情 况 下 ( 即 均 
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231 


232 


挫 后 ) 都 不 是 常数 级 别 的 ， 而 且 不 存在 其 他 算法 能 够 保证 union-find 算法 的 所 有 操作 在 均 挫 后 都 是 
常数 级 别 的 (在 非常 一 般 的 cell probe 模型 之 下 ) 。 使 用 路 径 压 缩 的 加 权 quick-union 算法 已 经 是 我 


们 对 于 这 个 问题 能 够 给 出 的 最 优 解 了 。 
1.5.2.9 ” 均 摊 成 本 的 图 像 

与 对 其 他 任何 数据 结构 实现 的 讨论 一 样 ， 
我 们 应 该 按照 1.4 节 中 的 讨论 在 实验 中 用 典型 
的 用 例 验证 我 们 对 算法 性 能 的 猜想 。 图 1.5.10 
详细 显示 了 我 们 的 动态 连通 性 问题 的 开发 用 
例 在 使 用 各 种 算法 处 理 一 份 含有 625 个 触 点 
的 样 例 数据 (mediumUF.txt ) 时 的 性 能 。 绘 
制 这 种 图 像 很 简单 ( 请 见 练习 1.5.16) : 在 
处 理 第 i 个 连接 时 ， 用 一 个 变量 cost 记录 其 
间 访 问 数组 (id[] 或 sz[] ) 的 次 数 ， 并 用 
一 个 变量 total 记录 到 目前 为 止 数 组 访问 的 
总 次 数 。 我 们 在 (i1， cost) 处 画 一 个 灰 点 ， 
在 (i，total/i) 处 画 一 个 红 点 ， 红 点 表示 
的 是 每 个 操作 的 平均 成 本 ， 即 均 摊 成 本 。 图 
像 能 够 帮助 我 们 更 好 地 理解 算法 的 行为 。 对 
于 quick-find 算法 ， 每 次 union() 操作 都 至 
少 访问 数组 625 次 〈 每 归并 一 个 分 量 还 要 加 
1， 最 多 再 加 625 ) ， 每 次 connected() 操 
作 都 访问 数组 2 次。 一 开始 ， 大 多 数 连接 都 
会 产生 一 个 union() 调用 ， 因 此 累计 平均 值 
徘徊 在 625 左右 ; 后 来 ， 大 多 数 连接 产生 的 
connected() 调用 会 跳 过 unionG) ， 因 此 累 
计 平 均值 开始 下 降 ， 但 仍 保持 了 相对 较 高 的 
水 平 (能 够 产生 大 量 connected() 调用 并 跳 
过 union0) 的 输入 性 能 要 好 得 多 ， 例 子 请 见 
练习 1.5.23 ) 。 对 于 quick-union 算法 ， 所 有 
的 操作 在 初始 阶段 访问 数组 的 次 数 都 不 多 ; 
到 了 后 期 ， 树 的 高 度 成 为 一 个 重要 因素 ， 均 
摊 成 本 的 增长 很 明显 。 对 于 加 权 quick-union 
算法 ， 树 的 高 度 一 直 很 小 ,没有 任何 昂贵 的 
操作 ， 均 挫 成 本 也 很 低 。 这 些 实验 验证 了 我 


quick-find 算 法 


1300 一 
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0 


加 权 quick-union 算 法 


3 没有 任何 昂贵 的 操作 8 
0 


图 1.5.10 所 有 操作 的 总 成 本 
(625 个 触 点 ， 另 见 彩 插 ) 


们 的 结论 ， 显 然 非常 有 必要 实现 加 权 quick-union 算法 ， 在 解决 实际 问题 时 已 经 没有 多 少 进一步 改 


进 的 空间 了 。 


1.5.3 ”展望 


直观 感觉 上 ， 我 们 学 习 的 每 种 UF 的 实现 都 改进 了 上 一 个 版 本 的 实现 ， 但 这 个 过 程 并 不 突 元 ， 


因为 我 们 可 以 总 结 学 者 们 对 这 些 算 法 多 年 的 研究 。 我 们 很 明确 地 说 明了 问题 ， 解 决 方法 的 实现 也 很 
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简单 ， 因 此 可 以 用 经 验 性 的 数据 评估 各 个 算法 的 优 劣 。 另 外 ， 还 可 以 通过 这 些 研究 验证 将 算法 的 
性 能 量化 的 数学 结论 。 只 要 可 能 ,我们 在 本 书 中 人 研究 各 种 基础 问题 时 都 会 遵循 类 似 于 本 节 中 讨论 
union-find 问题 时 的 基本 步 又 ， 在 这 里 我 们 要 再 次 强调 它们 。 

口 完整 而 详细 地 定义 问题 ， 找 出 解决 问题 所 必需 的 基本 抽象 操作 并 定义 一 份 API。 

口 简洁 地 实现 一 种 初级 算法 ， 给 出 一 个 精心 组 织 的 开发 用 例 并 使 用 实际 数据 作为 输入 。 

口 当 实现 所 能 解决 的 问题 的 最 大 规模 达 不 到 期 望 时 决定 改进 还 是 放弃 。 

口 逐步 改进 实现 ， 通 过 经 验 性 分 析 或 (和 ) 数学 分 析 验 证 改进 后 的 效果 。 

口 用 更 高 层次 的 抽象 表示 数据 结构 或 算法 来 设计 更 高 级 的 改进 版 本 。 

口 如 果 可 能 尽量 为 最 坏 情 况 下 的 性 能 提供 保证 ， 但 在 处 理 普通 数据 时 也 要 有 良好 的 性 能 。 

口 在 适当 的 时 候 将 更 细致 的 深入 研究 留 给 有 经 验 的 研究 者 并 继续 解决 下 一 个 问题 。 

我 们 从 union-find 问题 中 可 以 看 到 ,算法 设计 在 解决 实际 问题 时 能 够 为 程序 的 性 能 带 来 惊人 的 
提高 ， 这 种 潜力 使 它 成 为 热门 研究 领域 。 还 有 什么 其 他 类 型 的 设计 行为 可 能 将 成 本 降 为 原来 的 数 
百 万 甚至 数 十 亿 分 之 一 呢 ? 

设计 高 效 的 算法 是 一 种 很 有 成 就 感 的 智力 活动 ， 同 时 也 能 够 产生 直接 的 实际 效益 。 正 如 动态 连 
通 性 问题 所 示 ， 为 解决 一 个 简单 的 问题 我 们 学 习 了 许多 算法 ， 它 们 不 但 有 用 有 趣 ， 也 精巧 而 引 人 入 
胜 。 我 们 还 将 遇 到 许多 新 颖 独特 的 算法 , 它们 都 是 人 们 在 数 十 年 以 来 为 解决 许多 实际 问题 而 发 明 的 。 
随 着 计算 机 算法 在 科学 和 商业 领域 的 应 用 范围 越 来 越 广 ， 能 够 使 用 高 效 的 算法 来 解决 老 问题 并 为 新 
问题 开发 有 效 的 解决 方案 也 越 来 越 重要 了 。 233 


问 ”我 希望 为 API 添加 一 个 delete() 方法 来 允许 用 例 删 除 连接 。 能 够 给 我 一 些 建议 吗 ? 
答 目前 还 没有 人 能 够 发 明 既 能 处 理 删除 操作 而 又 和 本 节 中 所 介绍 的 算法 同样 简单 而 高 效 的 算法 。 这 个 
主题 在 本 书 中 会 反复 出 现 。 在 我 们 讨论 的 一 些 数据 结构 中 删除 比 添加 要 困难 得 多 。 
问 cell-probe 模型 是 什么 ? 
答 ” 它 是 一 种 计算 模型 ， 其 中 我 们 只 会 记录 对 随机 内 存 的 访问 ， 内 存 大 小 足以 保存 所 有 输入 量 假 设 其 他 
操作 均 没 有 成 本 。 234 


图 练习 


1.5.1 ”使 用 quick-find 算法 处 理 序列 9-0 3-4 5-8 7-2 2-1 5-7 0-3 4-2 。 对 于 输入 的 每 一 对 整数 ， 给 出 id[] 
数组 的 内 容 和 访问 数组 的 次 数 。 

1.5.2 ”使 用 quick-union 算法 (请 见 1.5.2.3 节 代 码 框 ) 完成 练习 1.5.1。 男 外 ， 在 处 理 完 输入 的 每 对 整数 
之 后 画 出 id[] 数组 表示 的 森林 。 

1.5.3 ”使 用 加 权 quick-union 算法 〈 请 见 算法 1.5 ) 完成 练习 1.5.1。 

1.5.4 在 正文 的 加 权 quick-union 算法 示例 中 ， 对 于 输入 的 每 一 对 整数 ( 包括 对 照 输 入 和 最 坏 情况 下 的 输 
入 ) ,给 出 id[] 和 sz[] 数组 的 内 容 以 及 访问 数组 的 次 数 。 

1.5.5 在 一 台 每 秒 能 够 处 理 10" 条 指令 的 计算 机 上 ， 估计 quick-find 算法 解决 含有 10 个 触 点 和 10' 条 连 
接 的 动态 连通 性 问题 所 需 的 最 短 时 间 ( 以 天 记 ) 。 假 设 内 循环 for 的 每 一 次 迭代 需要 执行 10 条 
机 器 指令 。 
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1.5.10 


1:5.11 
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使 用 加 权 quick-union 算法 完成 练习 1.5.5。 
分 别 为 quick-find 算法 和 quick-union 算法 实现 QuickFindUF 类 和 QuickUnionUF 类 。 
] 一 个 反例 证 明 quick-find 算法 中 的 unionQ 〇 方法 的 以 下 直观 实现 是 错误 的 : 
public void union(int p, int q) 
{ 
if (connected(p, q)) return; 
// 将 p 的 分 量 重 命名 为 q 的 分 量 
for (int i1 = 0; i < id.length; i++) 
if (id[i] == id[p]) id[i] = id[q]; 
Count--; 


} 


画 出 下 面 的 id[] 数组 所 对 应 的 树 。 这 可 能 是 加 权 quick-union 算法 得 到 的 结果 吗 ? 解释 为 什么 不 


可 能 ， 或 者 给 出 能 够 得 到 该 数组 的 一 系列 操作 。 


1 0123456789 
id[i] 1131561345 


在 加 权 quick-union 算法 中 ,假设 我 们 将 id[find(p)] 的 值 设 为 q 而 非 id[find(q)] ， 所 得 的 


算法 是 正确 的 吗 ? 
答 : 是 ,但 这 会 增加 树 的 高 度 ， 因 此 无 法 保证 同样 的 性 能 。 


实现 加 权 quick-find 算法 ， 其 中 我 们 总 是 将 较 小 的 分 量 重 命名 为 较 大 的 分 量 的 标识 符 。 这 种 改变 


会 对 性 能 产生 怎样 的 影响 ? 


图 提高 是 


1.5.12 


1.5.13 


1.5.14 


1.5.15 


1.5.16 
1.5.17 


使 用 路 径 压 缩 的 quick-union 算法 。 根 据 路 径 压 缩 修改 quick-union 算法 (请 见 1.5.2.3 节 ) ， 在 
find() 方法 中 添加 一 个 循环 来 将 从 p 到 根 节 点 的 路 径 上 的 每 个 触 点 都 连接 到 根 节点 。 给 出 一 列 
输入 ， 使 该 方法 能 够 产生 一 条 长 度 为 4 的 路 径 。 注 意 : 该 算法 的 所 有 操作 的 均 摊 成 本 已 知 为 对 


数 级 别 。 


使 用 路 径 压缩 的 加 权 quick-union 算法 。 修 改 加 权 quick-union 算法 ( 算法 1.5 ) , 实现 如 练习 1.5.12 
所 述 的 路 径 压 缩 。 给 出 一 列 输入 ， 使 该 方法 能 够 产生 一 棵 高 度 为 4 的 树 。 注 意 : 该 算法 的 所 有 
操作 的 均 摊 成 本 已 知 被 限制 在 反 Ackermann 函数 的 范围 之 内 ， 且 对 于 实际 应 用 中 可 能 出 现 的 所 


有 YX 值 均 小 于 5。 


根据 高 度 加 权 的 quick-union 算法 。 给 出 UF 的 一 个 实现 , 使 用 和 加 权 quick-union 算法 相同 的 策略 ， 
但 记录 的 是 树 的 高 度 并 总 是 将 较 矮 的 树 连 接 到 较 高 的 树 上 。 用 算法 证 明 NW 个 触 点 的 树 的 高 度 不 


会 超过 其 大 小 的 对 数 级 别 。 


二 项 树 。 请 证 明 , 对 于 加 权 quick-union 算法 , 在 最 坏 情 况 下 树 中 每 一 层 的 节点 数 均 为 二 项 式 系数 。 


在 这 种 情况 下 ， 计 算 含 有 NE2 个 节点 的 树 中 节点 的 平均 深度 。 
均 捧 成 本 的 图 像 。 修 改 你 为 练习 1.5.7 给 出 的 实现 ， 绘 出 如 正文 所 示 的 均 摊 成 本 的 图 像 。 


随机 连接 。 设 计 UF 的 一 个 用 例 ErdosRenyi， 从 命令 行 接受 一 个 整数 N， 在 0 到 N-1 之 间 产 生 随 


机 整数 对 ， 调 用 connected0) 判断 它们 是 否 相 连 ， 如 果 不 是 则 调用 union0Q 方法 ( 和 我 们 的 开 
发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相 互 连 通 并 打印 出 生成 的 连接 总 数 。 将 你 的 程序 打包 


成 一 个 接受 参数 N 并 返回 连接 总 数 的 静态 方法 count()， 添加 一 个 main0) 方法 从 命令 行 接受 N， 


调用 count 0O) 并 打印 它 的 返回 值 。 


1.5.18 随机 网 格 生成 器 。 编 写 一 个 程序 RandomGrid， 从 命令 行 接受 


1.5.19 


1.5.20 
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一 个 int 值 N， 生 成 一 个 NxN 的 


网 格 中 的 所 有 连接 。 它 们 的 排列 随机 且 方 向 随机 ( 即 (p q) 和 (gq p) 出 现 的 可 能 性 是 相等 的 ) ， 将 


这 个 结果 打印 到 标准 输出 中 。 可 以 使 月 


并 使 用 
方法 : 


日 RandomBag 将 所 有 连接 随机 排列 ( 请 见 练 习 1.3.34 ) ， 


如 右 下 所 示 的 Connection 般 套 类 来 将 p 和 qd 封装 到 一 个 对 象 中 。 将 程序 打包 成 两 个 静态 


generate() ， 接 受 参 数 N 并 返回 一 个 连接 的 数组 ; main() ， 从 命令 行 接受 参数 N， 调 用 


generate()， 遍历 返回 的 数组 并 打印 出 所 有 连接 。 
动画 。 编 写 一 个 RandomGrid ( 请 见 练习 1.5.18 ) 


区 
来 检查 
将 它们 绘 
动态 生 


wep 


quick-union 算法 ， 去 掉 需 要 预先 知道 对 象 数 量 } 


] 例 ， 


和 我 们 的 开发 用 例 一 样 使 用 UnionFind A class Connection 
触 点 的 连通 性 并 在 处 理 的 同时 用 StdDraw int p; 
全 出。 mo 


长 。 使 用 链表 或 大 小 可 变 的 数组 实现 加 权 


的 限制 。 为 API 添加 一 个 新 方法 newSite(0)， 


它 应 该 返回 一 


mm 了 人 .日 
图 实验 是 


Erd5s-Renyi 模型 。 使 用 练习 1.5.17 的 用 例 验 证 这 个 猜想 : 得 到 单个 连通 分 量 所 需 生 成 的 整数 对 


1.5.21 


1.5.22 


1.5.23 


1.5.24 


1.5.25 


1.5.26 


public Connection(int p, int q) 
ens = ens 


个 类 型 为 int 的 标识 符 。 封装 连接 的 嵌 套 类 


~1/2NInN。 


Erd5s-Renyi 模型 的 倍率 实验 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 行 接受 一 个 int 值 TT 并 进行 T 次 
以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind 来 检 


查 触 点 
接 数 以 


在 Erd6s-Renyi 模型 下 比较 quick-find 算法 和 quick-union 算法 。 开 发 一 个 性 外 
行 接受 一 
接 并 和 我 们 的 开发 用 例 一 样 分 别 
循环 直到 所 有 触 点 均 相 互 连 通 。 对 于 每 人 


适用 于 
径 压 缩 
随机 网 


的 连通 性 ， 不 断 循环 直到 所 有 触 点 均 相 互 连 通 。 对 于 每 个 N， 打 印 出 N 值 和 平均 所 需 的 连 
及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 的 猜想 : quick-find 算法 和 quick- 
union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 接近 线性 级 别 。 


个 int 值 T 并 进行 T 次 以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 。 保 存 这 些 连 
j quick-find 算法 和 quick-union 算法 检查 触 点 的 连通 性 ， 不 断 
个 N， 打 印 出 N 值 和 两 种 算法 的 运行 时 间 的 比值 。 


测试 用 例 ， 从 命令 


Erd5s-Renyi 模型 的 快速 算法 。 在 练习 1.5.23 的 测试 中 增加 加 权 quick-union 算法 和 使 用 路 


的 加 权 quick-union 算法 。 你 能 分 辨 出 这 两 种 算法 的 区 别 吗 ? 


格 的 倍率 测试 。 开 发 一 个 性 能 测试 用 例 , 从 命令 行 接受 一 个 int 值 T 


使 用 练习 1.5.18 的 用 例 生成 一 个 NxN 的 随机 网 格 ， 所 有 连接 的 方向 随机 且 排列 随机 。 和 我 们 的 


开发 用 


的 猜想 ; 
接近 线 


间 会 变 


Erd5s-Renyi 模型 的 均 摊 成 本 图 像 。 开 发 一 个 用 例 ， 从 命令 行 接受 一 


间 产 生 


例 一 样 使 用 UnionFind 来 检查 触 点 的 连通 性 ， 不 断 循环 直到 所 有 和 触 点 均 相 互 连 通 。 对 于 每 
个 N， 打 印 出 N 值 和 平均 所 需 的 连接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 
quick-find 算法 和 quick-union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 
性 级 别 。 注 意 : 随 着 NN 值 加 倍 ， 网 格 中 触 点 的 数量 会 乘 4， 因 此 平方 级 别 的 算法 的 运行 时 
为 原来 的 16 倍 ， 线 性 级 别 的 算法 的 运行 时 间 则 变 为 原来 的 4 倍 。 


进行 T 次 以 下 实验 : 


个 int 值 N, 在 0 到 N-1 之 


随机 整数 对 ， 调 用 connectedQ 判断 它们 是 否 相 连 ， 如 果 不 是 则 调 


j unionQ 〇 方法 (和 


我 们 的 开发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相互 连通 。 按 照 正文 的 样式 将 所 有 操作 的 均 


挫 成 本 


绘制 成 图 像 。 
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排序 就 是 将 一 组 对 象 按照 某 种 逻辑 顺序 重新 排列 的 过 程 。 比 如 ， 信 用 卡 账单 中 的 交易 是 按照 日 
期 排序 的 一 一 这 种 排序 很 可 能 使 用 了 某 种 排序 算法 。 在 计算 时 代 早 期 ， 大 家 普遍 认为 30% 的 计算 
周期 都 用 在 了 排序 上 。 如 果 今 天 这 个 比例 降低 了 ， 可 能 的 原因 之 一 是 如 今 的 排序 算法 更 加 高 效 ， 而 
并 非 排序 的 重要 性 降低 了 。 现 在 计算 机 的 广泛 使 用 使 得 数据 无 处 不 在 ， 而 整理 数据 的 第 一 步 通常 就 
是 进行 排序 。 所 有 的 计算 机 系统 都 实现 了 各 种 排序 算法 以 供 系 统 和 用 户 使 用 。 

即使 你 只 是 使 用 标准 库 中 的 排序 函数 ， 学 习 排 序 算 法 仍然 有 三 大 实际 意义 : 
口 对 排序 算法 的 分 析 将 有 助 于 你 全 面 理解 本 书 中 比较 算法 性 能 的 方法 ; 
口 类 似 的 技术 也 能 有 效 解决 其 他 类 型 的 问题 ; 
口 排序 算法 常常 是 我 们 解决 其 他 问题 的 第 一 步 。 

更 重要 的 是 这 些 算 法 都 很 经 典 、 优 雅 和 高 效 。 

排序 在 商业 数据 处 理 和 现代 科学 计算 中 有 着 重要 的 地 位 ， 它 能 够 应 用 于 事物 处 理 、 组 合 优化 、 
天 体 物 理学 、 分 子 动力 学 、 语 言 学 、 基 因 组 学 、 天 气 预 报 和 很 多 其 他 领域 。 其 中 一 种 排序 算法 〈 快 
速 排序 ， 见 2.3 节 ) 甚至 被 誉 为 20 世纪 科学 和 工程 领域 的 十 大 算法 之 一 。 

在 本 章 中 我 们 将 学 习 几 种 经 典 的 排序 算法 ， 并 高 效 地 实现 了 “优先 队列 ”这 种 基础 数据 类 型 。 
我 们 将 讨论 比较 排序 算法 的 理论 基础 并 在 本 章 结 尾 总 结 若 干 排序 算法 和 优先 队列 的 应 用 。 
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2.1 初级 排序 算法 


作为 对 排序 算法 领域 的 第 一 次 探索 , 我 们 将 学 习 两 种 初级 的 排序 算法 以 及 其 中 一 种 的 一 个 变 体 。 
深入 学 习 这 些 相 对 简单 的 算法 的 原因 在 于 : 第 一 ,我 们 将 通过 它们 熟悉 一 些 术 语 和 简单 的 技巧 ; 第 二 ， 
这 些 简单 的 算法 在 某 些 情况 下 比 我 们 之 后 将 会 讨论 的 复杂 算法 更 有 效 ; 第 三 ， 以 后 你 会 发 现 ， 它 们 
有 助 于 我 们 改进 复杂 算法 的 效率 。 


2.1.1 游戏 规则 

我 们 关注 的 主要 对 象 是 重新 排列 数组 元 素 的 算法 ， 其 中 每 个 元 素 都 有 一 个 主键 。 排 序 算法 的 目 
标 就 是 将 所 有 元 素 的 主键 按照 某 种 方式 排列 ( 通常 是 按照 大 小 或 是 字母 顺序 ) 。 排 序 后 索引 较 大 的 
主键 大 于 等 于 索引 较 小 的 主键 。 元 素 和 主键 的 具体 性 质 在 不 同 的 应 用 中 千差万别 。 在 Java 中 ， 元 素 
通常 都 是 对 象 , 对 主键 的 抽象 描述 则 是 通过 一 种 内 置 的 机 制 (请 见 2.1.1.4 节 中 的 Comparable 接口 ) 
来 完成 的 。 

“排序 算法 类 模版 ”中 的 Example 类 展示 了 我 们 的 习惯 约定 : 我 们 会 将 排序 代码 放 在 类 的 

sort() 方法 中 ,该 类 还 将 包含 辅助 函数 less () 和 exchG (可 能 还 有 其 他 辅助 函数 ) 以 及 一 个 示 
例 用 例 main(C) 。Examp1e 类 还 包含 了 一 些 早期 调试 使 用 的 代码 : 测试 用 例 mainQ 将 标准 输入 得 
到 的 字符 串 排序 ， 并 用 私有 方法 showQ) 打印 字符 数组 的 内 容 。 我 们 还 会 在 本 章 中 遇 到 各 种 用 于 比 
较 不 同 算法 并 研究 它们 的 性 能 的 测试 用 例 。 为 了 区 别 不 同 的 排序 算法 ， 我 们 为 相应 的 类 取 了 不 同 
的 名 字 ， 用 例 可 以 根据 名 字 调 用 不 同 的 实现 ,例如 Insertion.sort()、Merge.sort()、Quick. 
sort() 等 。 

大 多 数 情况 下 ， 我 们 的 排序 代码 只 会 通过 两 个 方法 操作 数据 : less(0) 方法 对 元 素 进行 比较 ， 
exch 0) 方法 将 元 素 交 换 位 置 。exch 0 方法 的 实现 很 简单 ， 通 过 Comparable 接口 实现 1ess() 方 
法 也 不 困难 。 将 数据 操作 限制 在 这 两 个 方法 中 使 得 代码 的 可 读 性 和 可 移植 性 更 好 ， 更 容易 验证 代码 
的 正确 性 、 分 析 性 能 以 及 排序 算法 之 间 的 比较 。 在 学 习 具 体 的 排序 算法 实现 之 前 ， 我 们 先 讨 论 几 个 
对 于 所 有 排序 算法 都 很 重要 的 问题 。 244 


排序 算法 类 的 模板 


public class Example 

{ 
public static void sort(Comparable[] a) 
{ /* 请 见 算法 2.1、 算 法 2.2、 算 法 2.3、 算 法 2.4、 算 法 2.5 或 算法 2.7*/ } 
private static boolean less(Comparable v, Comparable w) 
{ return v.compareTo(w) < 0; 了 
private static void exch(Comparable[] a, int i, int j) 
{ Comparable t = a[i]; a[i] = ar[j]j; a[j] = t; } 


private static void show(Comparable[] a) 
{ // 在 单行 中 打印 数组 


for (int 1 = 0; i < a.length; i++) 


Stdout.print(Ca[i] + " "); % more tiny.txt 
Stdout.println() ; SEONRO TE XIAMIPANE 
} 
public static boolean isSorted(Comparable[] a) % java Example < tiny.txt 
{ // 测试 数组 元 素 是 否 有 序 六 避 EEgIWLMEORPiRESUUX 


for (int i = 1; i < a.length; i++) 
if (less(a[i], a[i-1])) return false; 
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return true; 


} 
public static void main(String[] 
args) % more words3.txt 

{ // 从 标准 输入 读 取 字符 囊 ， 将 它们 排序 并 输出 bed bug dad yes zoo ... all bad yet 
String[] a = In.readStringsQO; 
sort(a); % java Example < words.txt 
assert isSorted(a); all bad bed bug dad ... yes yet zoo 
show(a); 

} 


} 
这 个 类 展示 的 是 数组 排序 实现 的 框架 。 对 于 我 们 学 习 的 每 种 排序 算法 ,我 们 都 会 为 这 样 一 个 类 实现 
一 个 sort0 方法 并 将 Example 改 为 算法 的 名 称 。 测 试用 例会 将 标准 输入 得 到 的 字符 串 排 序 ， 但 是 这 段 
245| “代码 使 我 们 的 排序 方法 适用 于 任意 实现 了 Comparable 接口 的 数据 类 型 。 


2.1.1.1 验证 

无 论 数组 的 初始 状态 是 什么 ， 排 序 算 法 都 能 成 功 吗 ” 谨慎 起 见 ， 我 们 会 在 测试 代码 中 添加 一 条 
语句 assert isSorted(a); 来 确认 排序 后 数组 元 素 都 是 有 序 的 。 尽 管 一 般 都 会 测试 代码 并 从 数学 
上 证 明 算 法 的 正确 性 ， 但 在 实现 每 个 排序 算法 时 加 上 这 条 语句 仍然 是 必要 的 。 需 要 注意 的 是 ， 如 果 
我 们 只 使 用 exch 0) 来 交换 数组 的 元 素 ， 这 个 测试 就 足够 了 。 当 我 们 直接 将 值 存 人 数组 中 时 ， 这 条 
语句 无 法 提供 足够 的 保证 ( 例如， 把 初始 输入 数组 的 元 素 全 部 置 为 相同 的 值 也 能 通过 这 个 测试 ) 。 
2.1.1.2 ”运行 时 间 

我 们 还 要 评估 算法 的 性 能 。 首 先 ， 要 计算 各 个 排序 算法 在 不 同 的 随机 输入 下 的 基本 操作 的 次 数 
(包括 比较 和 交换 ,或 者 是 读 写 数组 的 次 数 ) 。 然 后 ， 我 们 用 这 些 数据 来 估计 算法 的 相对 性 能 并 介 
绍 在 实验 中 验证 这 些 猜想 所 使 用 的 工具 。 对 于 大 多 数 实现 ， 代 码 风格 一 致 会 使 我 们 更 容易 作出 对 性 
能 的 合理 猜想 。 


排序 成 本 模型 。 在 研究 排序 算法 时 ， 我 们 需要 计算 比较 和 交换 的 数量 。 对 于 不 交换 元 素 的 算法 ， 
我 们 会 计算 访问 数组 的 次 数 。 


2.1.1.3 ”额外 的 内 存 使 用 
排序 算法 的 额外 内 存 开 销 和 运行 时 间 是 同等 重要 的 。 排 序 算法 可 以 分 为 两 类 : 除了 函数 调用 所 
需 的 栈 和 固定 数目 的 实例 变量 之 外 无 需 额 外 内 存 的 原 地 排序 算法 ， 以 及 需要 额外 内 存 空间 来 存储 另 
一 份 数组 副本 的 其 他 排序 算法 。 
2.1.1.4 数据 类 型 
我 们 的 排序 算法 模板 适用 于 任何 实现 了 Comparable 
接口 的 数据 类 型 。 遵 守 Java 惯例 的 好 处 是 很 多 你 希望 排 


Double al[] 
Om nee 


new Double[N]; 
0; i < N; i++) 


序 的 数据 都 实现 了 Comparable 接口 。 例 如 ，Java 中 封装 a[i] = StdRandom.uniformO); 
数字 的 类 型 Integer 和 Double， 以 及 String 和 其 他 许 ek on ea 


多 高 级 数据 类 型 ( 如 File 和 URL ) 都 实现 了 Comparable 将 N 个 随机 值 的 数组 排序 

接口 。 因 此 你 可 以 直接 用 这 些 类 型 的 数组 作为 参数 调用 我 

们 的 排序 方法 。 例 如 ， 右 上 方 的 代码 使 用 了 快速 排序 ( 请 见 2.3 节 ) 来 对 N 个 随机 的 Double 数据 进 
行 排序 。 


2.1 初级 排序 算法 所 


在 创建 自己 的 数据 类 型 时 ， 我 们 只 : 
ry 本 、 public class Date implements Comparable<Date> 
要 实现 Comparable 接口 就 能 够 保证 用 { 


例 代码 可 以 将 其 排序 。 要 做 到 这 一 点 ， RE 
a < private final int month ; 
只 需要 实现 一 个 compareTo() 方法 来 private final int year; 
定义 目标 类 型 对 象 的 自然 次 序 ， 如 右 侧 public DateCint d, int m, int y) 
的 Date 数据 类 型 所 示 ( 参见 表 1.2.12 ) 。 { day= d; month = m; year = y; } 
对 于 v<w、v=w 和 v>w 三 种 情况 ， 5uplacenneeday 人 { return day; } 
1 S public int month() { return month; 了 
Java 的 习惯 是 在 v.compareTo(w) 被 public int year() { return year; } 


] 计 当 ] 一 个 仿 整 类 2 | 
调用 时 分 别 返 回 个 负 整 数 、 零 和 public int compareTo(Date that) 


个 正 整 数 (一 般 是 -1、0 和 1)。 为 了 { 
的 有 >、 人 vs ， 一 if (人 this.year > that.year ) return +1; 
六 约 篇 幅 ， 我 们 接 下 来 用 v>w 来 表示 if (this.year < that.year ) return -1; 
v.compareTo(Cw)>0 这 样 的 代码 。 一 般 if (this.month > that.month) return +1; 

,» 二 :了 y SS if (this.month < that.month) return -1; 
来 说 ， 如 果 v 和 w 无 法 比较 或 者 两 者 之 if (this.day > that.day ) return +1; 
一 是 nu11，v.compareTo(w) 将 会 抛 出 if (this.day < that.day ) return -1; 
一 个 异常 。 此 外 ，compareTo() 必须 实 ED 
由 一 个 全 序 3 , 
现 一 个 全 序 关系 ， 即 : public String toString() 

口 自 反 性 ， 对 于 所 有 的 v，v=v; { return month + "/" + day + "/" + year; } 


口 反对 称 性 ， 对 于 所 有 的 vw 都 ”1 
有 v>w， 且 v=w 时 w=v; 
口 传递 性 , 对 于 所 有 的 v、w 和 Xx， 
如 果 v<=w 日 w<=x， 则 v<=x。 

从 数学 上 来 说 这 些 规则 都 很 标准 和 自然 ， 遵 守 它 们 应 该 不 难 。 总 之 ，compareTo() 实现 了 我 们 
的 主键 抽象 一 一 它 给 出 了 实现 了 Comparable 接口 的 任意 数据 类 型 的 对 象 的 大 小 顺序 的 定义 。 需 要 
注意 的 是 compareToQ 方法 不 一 定 会 用 到 进行 比较 的 实例 的 所 有 实例 变量 ， 毕 竟 数 组 元 素 的 主键 
很 可 能 只 是 每 个 元 素 的 一 小 部 分 。 

本 章 剩 余 篇 幅 将 会 讨论 对 一 组 自然 次 序 的 对 象 进行 排序 的 各 种 算法 。 为 了 比较 和 对 照 各 种 算 
法 ,我 们 会 检查 它们 的 许多 性 质 ， 包 括 在 各 种 输入 下 它们 比较 和 交换 数组 元 素 的 次 数 以 及 额外 内 
存 的 使 用 量 。 通 过 这 些 我 们 能 够 对 它们 的 性 能 作出 猜想 ， 而 这 些 猜 想 在 过 去 的 数 十 年 间 已 经 在 无 
数 的 计算 机 上 被 验证 过 了 。 所 有 的 实现 都 是 需要 通过 检验 的 ， 所 以 我 们 也 会 讨论 相关 的 工具 。 在 
研究 经 典 的 选择 排序 、 插 和 排序、 和希 尔 排序 、 归 并 排序 、 快 速 排序 和 堆 排 序 之 后 ， 我 们 将 在 2.5 
节 讨 论 一 些 实际 的 应 用 和 问题 。 


2.1.2 ”选择 排序 

一 种 最 简单 的 排序 算法 是 这 样 的 ， 首先 ， 找 到 数组 中 最 小 的 那个 元 素 ， 其 次 ， 将 它 和 数组 的 第 
一 个 元 素 交 换 位 置 ( 如 果 第 一 个 元 素 就 是 最 小 元 素 那么 它 就 和 自己 交换 ) 。 再 次 ， 在 剩 下 的 元 素 中 
找到 最 小 的 元 素 ， 将 它 与 数组 的 第 二 个 元 素 交 换 位 置 。 如 此 往复 ， 直 到 将 整个 数组 排序 。 这 种 方法 
叫做 选择 排序 ， 因 为 它 在 不 断 地 选择 剩余 元 素 之 中 的 最 小 者 。 

如 算法 2.1 所 示 ， 选 择 排序 的 内 循环 只 是 在 比较 当前 元 素 与 目前 已 知 的 最 小 元 素 ( 以 及 将 当前 
索引 加 1 和 检查 是 否 代码 越界 ) ， 这 已 经 简单 到 了 极点 。 交 换 元 素 的 代码 写 在 内 循环 之 外 ， 每 次 交 
换 都 能 排 定 一 个 元 素 ， 因 此 交换 的 总 次 数 是 W。 所 以 算法 的 时 间 效率 取 决 于 比较 的 次 数 。 


定义 一 个 可 比较 的 数据 类 型 


| 
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命题 A。 对 于 长 度 为 N 的 数组 ， 选 择 排序 需要 大 约 N/12 次 比较 和 N 次 交换 。 


证 明 。 可 以 通过 算法 的 排序 轨迹 来 证 明 这 一 点 。 我 们 用 一 张 NXN 的 表格 来 表示 排序 的 轨迹 ( 见 
算法 2.1 下 部 的 表格 ) ， 其 中 每 个 非 灰 色 字 符 者 表示 一 次 比较 。 表 格 中 大 约 一 半 的 元 素 不 是 灰 
色 的 一 一 即 对 角 线 和 其 上 部 分 的 元 素 。 对 角 线 上 的 每 个 元 素 都 对 应 着 一 次 交换 。 通 过 查看 代码 
我 们 可 以 更 精确 地 得 到 ，0 到 N-1 的 任意 i 都 会 进行 一 次 交换 和 NN-1-i 次 比较 ， 因 此 总 共有 NN 
次 交换 以 及 (N_1)+(N_2)+…+2+1=N(N_1)/2 ~ N22 次 比较 。 


总 的 来 说 ， 选 择 排 序 是 一 种 很 容易 理解 和 实现 的 简单 排序 算法 ， 它 有 两 个 很 鲜明 的 特点 。 

运行 时 间 和 输入 无 关 。, 为 了 找 出 最 小 的 元 素 而 扫描 一 遍 数 组 并 不 能 为 下 一 遍 扫描 提供 什么 信息 。 
这 种 性 质 在 某 些 情况 下 是 缺点 ， 因 为 使 用 选择 排序 的 人 可 能 会 惊讶 地 发 现 ， 一 个 已 经 有 序 的 数组 或 
是 主键 全 部 相等 的 数组 和 一 个 元 素 随 机 排列 的 数组 所 用 的 排序 时 间 竞 然 一 样 长 ! 我 们 将 会 看 到 ， 其 
他 算法 会 更 善于 利用 输入 的 初始 状态 。 

数据 移动 是 最 少 的 。 每 次 交换 都 会 改变 两 个 数组 元 素 的 值 ， 因 此 选择 排序 用 了 NN 次 交换 一 一 交 
换 次 数 和 数组 的 大 小 是 线性 关系 。 我 们 将 研究 的 其 他 任何 算法 都 不 具备 这 个 特征 ( 大 部 分 的 增长 数 
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量 级 都 是 线性 对 数 或 是 平方 级 别 ) 。 
算法 2.1 选择 排序 


public class Selection 
{ 
public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; // 数组 长 度 
for (Cint 1 = 0; i < N; i++) 
{ // 将 a[i] 和 a[i+1..N] 中 最 小 的 元 素 交 换 
int min = 1; // 最 小 元 素 的 索引 
for Cint j = i+tl; j < N; j++) 
if (less(a[j], a[fmin])) min = j; 
exch(a, i1, min); 


} 
// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算 法 类 模板 ” 


该 算法 将 第 i 小 的 元 素 放 到 a[i 之 中 。 数 组 的 第 i 个 位 置 的 左边 是 i 个 最 小 的 元 素 且 它们 不 会 再 
被 访问 。 


a[] 

1 min 0 1 之 3 4 5 6 次 8 9 10 算法 在 黑色 的 

Ss 0 RR TT EE x A M P L E 元 素 中 查找 最 小 值 
0 6 Ss 0 R TT E x AM P LE 
1 4 0 R TT E x Ss M P L E 加 粗 的 元 
2 10 R T 0 Xx Ss M PpP LE 条 和 是 amin] 
3 9 T 0 x Ss Mm PpP L R 
4 7 0 x Ss M PpP TT R 
5 7 x Ss 0 PT R 
6 8 Ss x PT R 
7 10 x SS T R 


8 8 
9 9 
10 10 
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ST Xx 
灰色 的 元 
人 素 都 已 经 排 定 


选择 排序 的 轨迹 (每 次 交换 后 的 数组 内 容 ) 


2.1.3 插入 排序 

通常 人 们 整理 桥牌 的 方法 是 一 张 一 张 的 来 , 将 每 一 张 牌 插入 到 其 他 已 经 有 序 的 牌 中 的 适当 位 置 。 
在 计算 机 的 实现 中 ， 为 了 给 要 插入 的 元 素 腾 出 空间 ， 我 们 需要 将 其 余 所 有 元 素 在 插入 之 前 都 向 右 移 
动 一 位 。 这 种 算法 叫做 插入 排序 ， 实 现 请 见 算法 2.2。 


与 选择 排序 一 


样 ， 当 前 索引 左边 的 所 有 元 素 都 是 有 序 的 ， 但 它们 的 最 终 位 置 还 不 确定 ， 为 了 给 


更 小 的 元 素 腾 出 空 
和 选择 排序 不 


排序 要 快 得 多 。 


命题 B。 对 于 随 


s 间 ， 它 们 可 能 会 被 移动 。 但 是 当 索 引 到 达 数 组 的 右 端 时 ， 数 组 排序 就 完成 了 。 
\ 同 的 是 ， 插 入 排序 所 需 的 时 间 取 决 于 输入 中 元 素 的 初始 顺序 。 例 如 ， 对 一 个 很 大 


且 其 中 的 元 素 已 经 有 序 〈 或 接近 有 序 ) 的 数组 进行 排序 将 会 比 对 随机 顺序 的 数组 或 是 逆序 数组 进行 


机 排列 的 长 度 为 W 且 主键 不 重复 的 数组 ， 平 均 情 况 下 插入 排序 需要 ~ N/4 次 比 


较 以 及 ~ N/4 次 交换 。 最 坏 情况 下 需要 ~ NV/2 次 比较 和 ~ N/2 次 交换 ， 最 好 情况 下 需要 N-1 
次 比较 和 0 次 交换 。 


证 明 。 和 和 命题 A 一 样 ， 通 过 一 个 NXN 的 轨迹 表 可 以 很 容易 就 得 到 交换 和 比较 的 次 数 。 最 坏 情 
况 下 对 角 线 之 下 所 有 的 元 素 都 需要 移动 位 置 ， 最 好 情况 下 都 不 需要 。 对 于 随机 排列 的 数组 ， 在 


的 三 分 之 一 。 


元 素 的 次 数 。 在 
已 经 有 序 ) ， 


NSS 
HE 


平均 情况 下 每 个 元 素 都 可 能 向 后 移动 半 个 数组 的 长 度 ， 因 此 交换 总 数 是 对 角 线 之 下 的 元 素 总 数 


比较 的 总 次 数 是 交换 的 次 数 加 上 一 1 该 项 为 入 减 去 被 插入 的 元 素 正好 是 已 知 的 最 小 


0 况 下 (逆序 数组 ) ， 这 一 项 相对 于 总 数 可 以 忽略 不 计 ; 在 最 好 情况 下 ( 数 
一 项 等 于 N-1。 


插入 排序 对 于 实际 应 用 中 常见 的 某 些 类 型 的 非 随机 数组 很 有 效 。 例 如 ， 正 如 刚才 所 提 到 的 ， 想 


想 当 你 用 插入 排序 对 一 个 有 序数 组 进行 排序 时 会 发 生 什么 。 插 入 排序 能 够 立即 发 现 每 个 元 素 都 已 经 
在 合适 的 位 置 之 上 , 它 的 运行 时 间 也 是 线性 的 ( 对 于 这 种 数组 , 选择 排序 的 运行 时 间 是 平方 级 别 的 ) 。 
对 于 所 有 主键 都 相同 的 数组 也 会 出 现 相同 的 情况 ( 因此 命题 B 的 条 件 之 一 就 是 主键 不 重复 ) 。 


算法 2.2 插入 排序 
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public class Insertion 


{ 


public static void sort(Comparable[] a) 


{ // 将 a 
int N 


[] 按 升序 排列 
= a.length; 


for (Cint i = 1; i < N; i++) 


{ 将 


a[i] 插入 到 a[i-1]、a[i-2]、a[i-3]... 之 中 


for (int j = i; j > 0 && less(a[j], a[j-1]); j--) 
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exch(a, j, j-1); 
} 


} 
// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算 法 类 模板 ” 


} 
对 于 1 到 N-1 之 间 的 每 一 个 i, 将 a[ 让 与 a[0] 到 a[i-1] 中 比 它 小 的 所 有 元 素 依次 有 序 地 交换 。 
在 索引 i 由 左 向 右 变 化 的 过 程 中 , 它 左 侧 的 元 素 总 是 有 序 的 , 所 以 当 i 到 达 数 组 的 右 端 时 排序 就 完成 了 。 


1 j- QQ 和 1 
S 0 RIT XxXAMPLAE 灰色 的 元 
1 0 0 -一 素 不 会 移动 
冯 于 R Ss 
3 3 T 
0 EO REST 加 祖 的 元 
2 5 X 素 就 是 a[j] 
6 0 A EOR STX 
7 2 M 0OR Ss TX 为 了 插入 新 的 元 
8 4 P RS T x ,5 一 素 ， 黑色 的 元 素 
9 2 LMOP RS TX 都 向 右 移动 了 一 格 
10 2 E LM OP RS TX 
A E E LMDO RS TX 


插入 排序 的 轨迹 (每 次 插入 后 的 数组 内 容 ) 


我 们 要 考虑 的 更 一 般 的 情况 是 部 分 有 序 的 数组 。 倒 置 指 的 是 数组 中 的 两 个 顺序 颠倒 的 元 素 。 比 
如 EXAMPLE 中 有 11 对 倒置 : E-A、X-A、X-M、X-P、X-L、X-E、M-L、M-E、P-L、P-E 
以 及 L-E。 如 果 数 组 中 倒置 的 数量 小 于 数组 大 小 的 某 个 倍数 ,那么 我 们 说 这 个 数组 是 部 分 有 序 的 。 
下 面 是 几 种 典型 的 部 分 有 序 的 数组 : 
口 数组 中 每 个 元 素 距离 它 的 最 终 位 置 都 不 远 ; 
口 一 个 有 序 的 大 数组 接 一 个 小 数组 ; 
口 数组 中 只 有 几 个 元 素 的 位 置 不 正确 。 
插入 排序 对 这 样 的 数组 很 有 效 ， 而 选择 排序 则 不 然 。 事 实 上 ， 当 倒置 的 数量 很 人 少时， 插入 排序 
很 可 能 比 本 章 中 的 其 他 任何 算法 都 要 快 。 


川 | 


命题 C。 插 入 排序 需要 的 交换 操作 和 数组 中 倒置 的 数量 相同 ， 需 要 的 比较 次 数 大 于 等 于 倒置 的 
数量 ， 小 于 等 于 倒置 的 数量 加 上 数组 的 大 小 再 减 一 。 


证 明 。 每 次 交换 都 改变 了 两 个 顺序 颠倒 的 元 素 的 位 置 ， 相 当 于 减少 了 一 对 倒置 ， 当 倒置 数量 为 
0 时 ， 排 序 就 完成 了 。 每 次 交换 都 对 应 着 一 次 比较 ， 且 1 到 N-1 之 间 的 每 个 i 都 可 能 需要 一 次 
额外 的 比较 (在 a[i] 没有 达到 数组 的 左 端 时 ) 。 


要 大 幅 提 高 插入 排序 的 速度 并 不 难 ， 只 需要 在 内 循环 中 将 较 大 的 元 素 都 向 右 移动 而 不 总 是 交换 
两 个 元 素 ( 这样 访问 数组 的 次 数 就 能 减 半 ) 。 我 们 把 这 项 改进 留 做 一 个 练习 (请 见 练习 2.1.25 ) 。 
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总 的 来 说 ， 插 入 排序 对 于 部 分 有 序 的 数 I [本 本] 丁丁 
组 十 分 高 效 , 也 很 适合 小 规模 数组 。 这 很 重要 ， | lullabies 
因为 这 些 类 型 的 数组 在 实际 应 用 中 经 常 出 现 ， 上 aa 
而 且 它们 也 是 高 级 排序 算法 的 中 间 过 程 。 我 | 灰色 的 元 素 .aaa 
们 会 在 学 习 高 级 排序 算法 时 再 次 接触 到 插入 ull a 
排序 。 中 Db uid 
2.1.4 “排序 算法 的 可 视 化 | et 
I 

在 本 章 中 我 们 会 使 用 一 种 简单 的 图 示 来 帮 | In 
助 我 们 说 明 排 序 算法 的 性 质 。 我 们 没有 使 用 字 省 TIE 
母 、 数 字 或 是 单词 这 样 的 键 值 来 跟踪 排序 的 进 | hu 
程 ， 而 使 用 了 棒状 图 ， 并 以 它们 的 高 矮 来 排序 。 咱 中 TD 
这 种 表示 方法 的 好 处 是 能 够 使 排序 过 程 一 目 ei I 
了 然 。 

| 出 

如 图 2.1.1 所 示 ， 插 入 排序 不 会 访问 索引 NN 总 色 的 元 素 中 
右 侧 的 元 素 ， 而 选择 排序 不 会 访问 索引 左 侧 的 hyygN | 会 与 了 比较 jill 
元 素 。 另 外 ， 在 这 种 可 视 化 的 轨迹 图 中 可 以 看 al i 
到 ， 因 为 插入 排 序 不 会 移动 比 被 插入 的 元 素 更 | 中 
小 的 元 素 ， 它 所 需 的 比较 次 数 平均 只 有 选择 排 pp | 
序 的 一 半 。 

用 我 们 的 StdDraw 库 画 出 一 张 可 视 轨迹 nt I 
图 并 不 比 追 踪 一 次 算法 的 运行 轨迹 难 多 少 。 将 i Ce 


Double 值 排序 ， 并 在 适当 的 时 候 指 示 算 法 调 。 图 2.1.1 初级 排序 算法 的 可 视 轨迹 图 ( 另 见 彩 括 ) 
用 showQ 方法 ( 和 追踪 算法 的 轨迹 时 一 样 ) ， 

然后 开发 一 个 使 用 StdDraw 来 绘制 棒状 图 而 不 是 打印 结果 的 show( 方法 。 最 复杂 的 部 分 是 设置 
轴 的 比例 以 使 轨迹 的 线条 符合 预期 的 顺序 。 请 通过 练习 2.1.18 来 更 好 地 理解 可 视 轨迹 图 的 价值 和 
使 用 


将 轨迹 变 成 动画 ， 理 解 起 来 就 更 加 简单 ， 这 样 可 以 看 到 动态 演化 到 有 序 状态 的 过 程 。 产 生 轨 迹 
动画 的 过 程 本 质 上 和 上 一 段 所 描述 的 相同 ,但 不 需要 担心 y 轴 的 问题 (只 需 每 次 擦 除 窗口 中 的 内 容 
并 重 绘 棒 状 图 即 可 )。 尽 管 我 们 无 法 在 书 中 展现 这 些 动画 , 它们 对 于 理解 算法 的 工作 原理 也 很 有 帮助 ， 
你 能 通过 练习 2.1.17 体会 这 一 点 。 252 


2.1.5 比较 两 种 排序 算法 

现在 我 们 已 经 实现 了 两 种 排序 算法 ,我 们 很 自然 地 想 知道 选择 排序 ( 算法 2.1 ) 和 搬入 排序 ( 算 
法 2.2 ) 哪 种 更 快 。 这 个 问题 在 学 习 算 法 的 过 程 中 会 反复 出 现 ， 也 是 本 书 的 重点 之 一 。 我 们 已 经 在 
第 1 章 中 讨论 过 一 些 基 本 的 概念 ， 这 里 我 们 第 一 次 用 实践 说 明 我 们 解决 这 个 问题 的 办 法 。 一 般 来 说 ， 
根据 1.4 节 所 介绍 的 方法 ， 我 们 将 通过 以 下 步骤 比较 两 个 算法 : 
口 实现 并 调试 它们 ; 
口 分 析 它 们 的 基本 性 质 ; 
口 对 它们 的 相对 性 能 作出 猜想 ; 


160 PE 第 2 章 排 序 


254 


口 用 实验 验证 我 们 的 猜想 。 

这 些 步 又 都 是 经 过 时 间 检 验 的 科学 方法 ， 只 是 现在 是 运用 在 算法 研究 之 上 。 

现在 ,算法 2.1 和 算法 2.2 表示 已 经 实现 了 第 一 步 ， 命 题 A、 命题 B 和 命题 C 组 成 了 第 二 步 ， 
下 面 的 性 质 D 将 是 第 三 步 ， 之 后 “比较 两 种 排序 算法 ”的 SortCompare 类 将 会 完成 第 四 步 。 这 些 
行为 都 是 紧密 相关 的 。 

在 这 些 简 洁 的 步骤 之 下 是 大 量 的 算法 实现 、 调 试 分析 和 测试 工作 。 每 个 程序 员 都 知道 只 有 经 过 
长 期 的 调试 和 改进 才能 得 到 这 样 的 代码 ， 每 个 数学 家 都 知道 正确 分 析 的 难度 ， 每 个 科学 家 也 都 知道 
从 提出 猜想 到 设计 并 执行 实验 来 验证 它们 是 多 么 费心 。 只 有 研究 那些 最 重要 的 算法 的 专家 才 会 经 历 
完整 的 研究 过 程 ， 但 每 个 使 用 算法 的 程序 员 都 应 该 了 解 算法 的 性 能 特性 背后 的 科学 过 程 。 

实现 了 算法 之 后 ， 下 一 步 我 们 需要 确定 一 个 适当 的 输入 模型 。 对 于 排序 ， 命 题 A、 命 题 B 和 命 
题 C 用 到 的 自然 输入 模型 假设 数组 中 的 元 素 随机 排序 ， 且 主键 值 不 会 重复 。 对 于 有 很 多 重复 主键 的 
应 用 来 说 ， 我 们 需要 一 个 更 加 复杂 的 模型 。 

如 何 估计 插入 排序 和 选择 排序 在 随机 排序 数组 下 的 性 能 呢 ?” 通 过 算法 2.1 和 算法 2.2 以 及 命题 
A、 命 题 B 和 命题 C 可 以 发 现 ， 对 于 随机 排序 数组 ， 两 者 的 运行 时 间 都 是 平方 级 别 的 。 也 就 是 说 ， 
在 这 种 输入 下 插入 排序 的 运行 时 间 和 N 乘 以 一 个 小 常数 成 正比 ， 选 择 排序 的 运行 时 间 和 N 乘 以 另 
一 个 小 常数 成 比例 。 这 两 个 常数 的 值 取决 于 所 使 用 的 计算 机 中 比较 和 交换 元 素 的 成 本 。 对 于 许多 数 


据 类 型 和 一 般 的 计算 机 ， 可 以 假设 这 些 成 本 是 相近 的 〈 但 我 们 也 会 看 到 一 些 大 不 相同 的 例外 ) 。 
此 我 们 直接 得 出 了 以 下 猜想 。 


性 质 D。 对 于 随机 排序 的 无 重复 主键 的 数组 ， 插 入 排序 和 选择 排序 的 运行 时 间 是 平方 级 别 的 ， 
两 者 之 比 应 该 是 一 个 较 小 的 常数 。 


例证 。 这 个 结论 在 过 去 的 半 个 世纪 中 已 经 在 许多 不 同类 型 的 计算 机 上 经 过 了 验证 。 在 1980 年 
本 书 第 1 版 完成 之 时 插入 排序 就 比 选择 排序 快 一 倍 ， 现 在 仍然 是 这 样 ， 尽 管 那 时 这 些 算法 将 10 
万 条 数据 排序 需要 几 个 小 时 而 现在 只 需要 几 秒 钟 。 在 你 的 计算 机 上 插入 排序 也 比 选择 排序 快 一 
些 吗 ? 可 以 通过 SortCompare 类 来 检测 。 它 会 使 用 由 命令 行 参数 指定 的 排序 算法 名 称 所 对 应 的 
sort() 方法 进行 指定 次 数 的 实验 (将 指定 大 小 的 数组 排序 ) ， 并 打印 出 所 观察 到 的 各 种 算法 的 
运行 时 间 的 比例 。 


为 了 证 明 这 一 点 ， 我 们 用 ie SEE deole 站 meatStpinog alg, € el 动 
a ee pu Ne StAaCTe OU | me ring a g， ompara e a 
SortCompare ( 见 “ 比 较 两 种 排 f 


序 算法 ”) 来 做 几 次 实验 。 我 们 Stopwatch timer = new Stopwatch() ; 
if (alg.equals("Insertion")) Insertion.sort(a); 
使 用 Stopwatch 来 计时 ， 右 侧 的 if (alg.equals("Selection")) Selection.sort(a); 
time() 函数 的 任务 是 调用 本 音 中 if (alg.equals("Shell")) Shellesor ua 
让 if (alg.equals("Merge")) Merge.sort(a); 
的 几 种 简单 排序 算法 。 if (alg.equals("Quick")) Quick.sort(a); 
随机 数组 的 输入 模型 由 if (alg.equals("Heap")) Heap. sort(a); 
t [a .el dTi 9 
SortCompare 类 中 的 timeRandom- } 0 


InputQ 方法 实现 。 这 个 方法 会 
生成 随机 的 Double 值 , 将 它们 排 针对 给 定 输入 , 为 本 章 中 的 一 种 排序 算法 计时 


2.1 初级 排序 算法 二 161 


序 ， 并 返回 指定 次 测试 的 总 时 间 。 使 用 0.0 至 1.0 之 间 的 随机 Double 值 比 使 用 类 似 于 StdRandom. 
shuffle() 的 库 函 数 更 简单 有 效 ， 因 为 这 样 几乎 不 可 能 产生 相等 的 主键 值 (请 见 练习 2.5.31) 。 如 
第 1 章 中 所 讨论 的 ， 用 命令 行 参数 指定 重复 次 数 的 好 处 是 能 够 运行 大 量 的 测试 (测试 次 数 越 多 ， 
遍 测试 所 需 的 平均 时 间 就 越 接近 于 真实 的 平均 数据 ) 并 且 能 够 减 小 系统 本 身 的 影响 。 你 应 该 在 自己 
的 计算 机 上 用 SortCompare 进行 实验 ,来 了 解 关于 插入 排序 和 选择 排序 的 结论 是 否 成 立 。 


比较 两 种 排序 算法 


public class SortCompare 

沁 
public static double time(String alg, Double[] a) 
{ /* 请 见 前 面 的 正文 */ } 


public static double timeRandomInput(String alg, int N, int T) 
{ // 使 用 算法 a1g 将 T 个 长 度 为 N 的 数组 排序 
double total = 0.0; 
Double[] a = new Double[N]; 
for (Cint t = 0; t < T; t++) 
{ ”// 进行 一 次 测试 ( 生成 一 个 数组 并 排序 ) 
for (int i = 0; i < N; i++) 
a[i] = StdRandom.uniform(); 
total += time(alg, a); 
} 
return total; 


} 


public static void main(String[] args) 

{ 
String algl = args[0]; 
String alg2 = args[1]; 
int N = Integer.parseInt(args[2]); 
int T = Integer.parseInt(args[3]); 
double tl1 = timeRandomInput(al1g1，N，T); // 算法 1 的 总 时 间 
double t2 = timeRandomInput(alg2，N，T); // 算法 2 的 总 时 间 
StdOut.printf(C “For %d random Doubles\n %s is” , N, alg]l); 
StdOut.printfC “ %.1f times faster than %s\n” , t2/tl1, alg2); 


} 

这 个 用 例会 运行 由 前 两 个 命令 行 参数 指定 的 排序 算法 ， 对 长 度 为 N (由 第 三 个 参数 指定 ) 的 Double 
型 随机 数组 进行 排序 ， 元 素 值 均 在 0.0 到 1.0 之 间 , 重复 T 次 ( 由 第 四 个 参数 指定 ) ， 然 后 输出 总 运行 时 
间 的 比例 。 


% java SortCompare Insertion Selection 1000 100 
For 1000 random Doubles 
Insertion is 1.7 times faster than Selection 233 


我 们 故意 将 性 质 D 描述 得 不 够 明 古 没有 说 明 那 个 小 常量 的 值 ， 以 及 对 比较 和 交换 的 成 本 相 
近 的 假设 ， 这 样 性 质 D 才能 广泛 适用 于 各 种 情况 。 可 能 的 话 ， 我 们 会 尽量 用 这 样 的 语言 来 抓 住 我 们 
所 研究 的 每 个 算法 的 性 能 的 本 质 。 如 第 1 章 中 讨论 的 那样 ， 我 们 提出 的 每 个 性 质 都 需要 在 特定 的 场 
景 中 进行 科学 测试 ， 也 许 还 需要 用 一 个 基于 相关 命题 ( 数学 定理 ) 的 猜想 进行 补充 。 


162 > 第 2 章 排 序 


对 于 实际 应 用 ,还 有 一 个 很 重要 的 步骤 ， 那 就 是 用 实际 数据 在 实验 中 验证 我 们 的 猜想 。 我 们 会 
在 2.5 节 和 练习 中 再 考虑 这 一 点 。 在 这 种 情况 下 ， 当 主键 有 重复 或 是 排列 不 随机 ， 人 性 质 D 就 可 能 会 
不 成 立 。 可 以 使 用 StdRandom.shuffle() 来 将 一 个 数组 打 乱 ， 但 有 大 量 重复 主键 的 情况 则 需要 更 
加 细致 的 分 析 。 

我 们 对 算法 分 析 的 讨论 是 抛砖引玉 ， 而 非 羡 棺 定论 。 如 果 你 想到 了 关于 算法 性 能 的 其 他 问题 ， 
可 以 用 SortCompare 等 工具 来 研究 它 ， 后 面 的 练习 为 你 提供 了 许多 机 会 。 
插入 排序 和 选择 排序 的 性 能 比较 就 讨论 到 这 里 ， 还 存在 许多 比 它们 快 成 千 上 万 倍 的 算法 ， 我 们 
对 此 会 更 感 兴趣 。 当 然 ， 仍然 有 必要 学 习 这 些 初级 算法 ， 因 为 : 
口 它们 帮助 我 们 建立 了 一 些 基本 的 规则 ; 
口 它们 展示 了 一 些 性 能 基准 ; 
口 在 某 些 特殊 情况 下 它们 也 是 很 好 的 选择 ; 
口 它们 是 开发 更 强大 的 排序 算法 的 基石 。 

因此 ， 不 止 是 排序 ， 对 于 本 书 中 的 每 个 问题 我 们 都 会 沿用 这 种 方式 ， 首 先 学 习 的 就 是 最 初级 的 

相关 算法 。SortCompare 这 样 的 程序 对 于 这 种 渐进 式 的 算法 研究 十 分 重要 。 每 一 步 ， 我 们 都 能 用 这 

257| ”类 程序 来 了 解 新 的 或 是 改进 后 的 算法 的 性 能 是 否 产生 了 预期 的 进步 。 


2.1.6 希 尔 排序 

为 了 展示 初级 排序 算法 性 质 的 价值 ， 接 下 来 我 们 将 学 习 一 种 基于 插入 排序 的 快速 的 排序 算法 。 
对 于 大 规模 乱 序数 组 插入 排序 很 乙 ， 因 为 它 只 会 交换 相 邻 的 元 素 ， 因 此 元 素 只 能 一 点 一 点 地 从 数组 
的 一 端 移动 到 另 一 端 。 例 如 ， 如 果 主 键 最 小 的 元 素 正 好 在 数组 的 尽头 ， 要 将 它 挪 到 正确 的 位 置 就 需 
要 N-1 次 移动 。 希 尔 排序 为 了 加 快速 度 简单 地 改进 了 插 和 人 排序， 交换 不 相 邻 的 元 素 以 对 数组 的 局 部 
进行 排序 ， 并 最 终 用 插入 排序 将 局 部 有 序 的 数组 排序 。 

硕 尔 排序 的 思想 是 使 数组 中 任意 间隔 为 h 的 元 素 都 是 有 序 的 。 这 样 的 数组 被 称 为 h 有 序数 组 。 换 
句 话 说， 一 个 h 有 序数 组 就 是 h 个 互相 独立 的 有 序数 组 编织 在 一 起 组 成 的 一 个 数组 ( 见 图 2.1.2 ) 。 
在 进行 排序 时 ， 如 果 h 很 大 ， 我 们 就 能 将 元 素 移动 到 很 远 的 地 方 ， 为 实现 更 小 的 h 有 序 创造 方便 。 用 
这 种 方式 ， 对 于 任意 以 1 结尾 的 h 序列 ， 我 们 都 能 够 将 数组 排序 。 这 就 是 硕 尔 排序 。 算 法 2.3 的 实现 
使 用 了 序列 12 (3 二 1 ) ， 从 N13 开始 递减 至 1。 我 们 把 这 个 序列 称 为 递增 序列 。 算 法 2.3 实时 计算 了 
它 的 递增 序列 ， 另 一 种 方式 是 将 递增 序列 存储 在 一 个 数组 中 。 


hm 
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A E L R 
图 2.1.2 一 个 h 有 序数 组 即 一 个 由 h 个 有 序 子 数组 组 成 的 数组 


实现 希 尔 排序 的 一 种 方法 是 对 于 每 个 hn， 用 搬入 排序 将 h 个 子 数组 独立 地 排序 。 但 因为 子 数组 
是 相互 独立 的 ， 一 个 更 简单 的 方法 是 在 h- 子 数组 中 将 每 个 元 素 交 换 到 比 它 大 的 元 素 之 前 去 (将 比 它 
大 的 元 素 向 右 移动 一 格 ) 。 只 需要 在 插入 排序 的 代码 中 将 移动 元 素 的 距离 由 1 改 为 h 即 可 。 这 样 , 希 
尔 排 序 的 实现 就 转化 为 了 一 个 类 似 于 插入 排序 但 使 用 不 同 增 量 的 过 程 。 

和 希 尔 排序 更 高 效 的 原因 是 它 权 衡 了 子 数组 的 规模 和 有 序 性 。 排 序 之 初 ， 各 个 子 数 组 都 很 得 ， 排 
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序 之 后 子 数 组 都 是 部 分 有 序 的 ， 这 两 种 情况 都 很 适合 插入 排序 。 子 数组 部 分 有 序 的 程度 取决 于 递增 
序列 的 选择 。 透 彻 理解 希 尔 排 序 的 性 能 至 今 仍然 是 一 项 挑战 。 实 际 上 ,算法 2.3 是 我 们 唯一 无 法 准 
确 描述 其 对 于 乱 序 的 数组 的 性 能 特征 的 排序 方法 。 


算法 2.3 希 尔 排序 


public class Shell 
{ 
public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
int h = 1; 
while (Ch < N/3) h = 3*h + 1; // 1, 4, 13, 40, 121, 364, 1093,，... 
while (h >= 1) 
{ // 将 数组 变 为 h 有 序 
for Cint i = h; i < N; i++) 
{ // 将 a[i] 插 入 到 a[i-h]，a[i-2*h]，a[i-3*h]... 之 中 
for (Cint j] = i; j >= h && less(a[j], a[j-h]); j -= h) 
exch(a, j, j-h); 


// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算法 类 模板 ” 
} 


如 果 我 们 在 插入 排序 (算法 2.2 ) 中 加 入 一 个 外 循环 来 将 h 按照 递增 序列 递减 ， 我 们 就 能 得 到 这 个 
简洁 的 希 尔 排序 。 增 幅 h 的 初始 值 是 数组 长 度 乘 以 一 个 常数 因子 ， 最 小 为 1。 


% java SortCompare Shell Insertion 100000 100 
For 100000 random Doubles 
Shell is 600 times faster than Insertion 


输入 SHELLSORTEXAMP LAE 
13-sortP H FE L LS 0 R T E Xx AM SS L E 
4-sort L E E AMH LE P S 0 LT S XxX R 
l-sort A E E E H L L LMOP R S 9 T Xx 
希 尔 排序 的 轨迹 〈 每 遍 排序 后 的 数组 内 容 ) 


如 何 选择 递增 序列 呢 ? 要 回答 这 个 问题 并 不 简单 。 算 法 的 性 能 不 仅 取决 于 h， 还 取决 于 之 间 
的 数学 性 质 ， 比 如 它们 的 公 因 子 等 。 有 很 多 论文 研究 了 各 种 不 同 的 递增 序列 ， 但 都 无 法 证 明 某 个 序 
列 是 “最 好 的 ”。 算 法 2.3 中 递增 序列 的 计算 和 使 用 都 很 简单 ， 和 复杂 递增 序列 的 性 能 接近 。 但 可 
以 证 明 复 杂 的 序列 在 最 坏 情 况 下 的 性 能 要 好 于 我 们 所 使 用 的 递增 序列 。 更 加 优秀 的 递增 序列 有 待 我 
们 去 发 现 。 

和 选择 排序 以 及 插入 排序 形成 对 比 的 是 ， 希 尔 排序 也 可 以 用 于 大 型 数组 。 它 对 任意 排序 (不 一 定 
是 随机 的 ) 的 数组 表现 也 很 好 。 实 际 上 ， 对 于 一 个 给 定 的 递增 序列 ， 构 造 一 个 使 硕 尔 排序 运行 缓慢 的 
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数组 并 不 容易 。 和 希 尔 排序 的 轨迹 如 图 2.1.3 所 示 ， 可 视 轨迹 如 图 2.1.4 所 示 。 


输入 SHE LL S OR T E XY A M P L E 
13-sort Pp S 
L 
E 
4-sort 上 Pp 
S 
0 
R 
T 
E H S 
X 
A L R 
M P T 
S 
L 0 X 
E L R 
l-sort FE L 
局. 上 
A E E L 
M 
H L M 
L 
E H L L M 
Pp 
S 
0 P 9 
LM 0O P S 
T 
ST 
X 
RS 9 T Xx 
结果 AE.E EN LL EE MO PRS-.S TX 


图 2.1.3 希 尔 排 序 的 详细 轨迹 (各 种 插入 ) 


通过 SortCompare 可 以 看 到 ， 希 尔 排 序 比 搬入 排序 和 选择 排序 要 快 得 多 ,并且 数 组 越 大 ， 优 
势 越 大 。 在 继续 学 习 之 前 ， 请 在 你 的 计算 机 上 用 SortCompare 比较 一 下 和 希 尔 排序 和 插入 排序 以 及 
选择 排序 的 性 能 ， 数 组 的 大 小 按照 2 的 过 次 递增 〈 见 练习 2.1.27 ) 。 你 会 看 到 希 尔 排 序 能 够 解决 一 
些 初 级 排序 算法 无 能 为 力 的 问题 。 这 个 例子 是 我 们 第 一 次 用 实际 应 用 说 明 一 个 贯穿 本 书 的 重要 理念 : 


通过 提升 速度 来 解决 其 他 方式 无 法 解决 的 问题 是 研究 算法 的 设计 和 性 能 的 主要 原因 之 一 。 


研究 希 尔 排 序 性 能 需要 的 数学 论证 超出 了 本 书 范围 。 如 果 你 不 相信 ， 可 以 从 证 明 下 面 这 一 点 开 


始 : 当 一 个 “h 有 序 ” 的 数组 按照 增幅 kk 排序 之 后 ， 它 仍然 是 “h 有 序 ” 的 。 至 于 算法 2.3 的 性 


Lob 
上 月 E ， 


目前 最 重要 的 结论 是 它 的 运行 时 间 达 不 到 平方 级 别 。 例 如 ， 已 知 在 最 坏 的 情况 下 算法 2.3 的 比较 次 数 
和 N“ 成 正比 。 有 意思 的 是 ， 由 插入 排序 到 希 尔 排序 ， 一 个 小 小 的 改变 就 突破 了 平方 级 别 的 运行 时 间 
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的 屏障 。 这 正 是 许多 算法 设计 问题 想 要 达到 的 目标 。 


40-sorted 


13-sorted 


4- 


I 


sorted 


图 2.1.4 希 尔 排 序 的 可 视 轨迹 


在 输入 随机 排序 数组 的 情况 下 ， 我 们 在 数学 上 还 不 知道 希 尔 排序 所 需要 的 平均 比较 次 数 。 人 们 
发 明了 很 多 递增 序列 来 渐进 式 地 改进 最 坏 情况 下 所 需 的 比较 次 数 (CNW ,N,N ) ， 但 这 些 结论 
大 多 只 有 学 术 意 义 


个 常数 


因子 ) 之 间 的 区 别 并 不 明显 。 


， 因 为 对 于 实际 应 用 中 的 X 来 说 它们 的 递增 序列 的 生成 函数 (以 及 与 V 乘 以 一 


在 实际 应 用 中 ,使 用 算法 23 中 的 递增 序列 基本 就 足够 了 (或 者 是 本 节 最 后 的 练习 中 提供 的 一 个 递 


增 序列 ， 


它 可 能 可 以 将 性 能 改进 20% ~ 40% ) 。 另 外 ， 很 容易 就 能 验证 下 面 这 个 猜想 。 


性 质 E。 使 用 递增 序列 1, 4, 13, 40, 121, 364… 的 希 尔 排 序 所 需 的 比较 次 数 不 会 超出 NN 的 若干 倍 
乘 以 递增 序列 的 长 度 。 


例证 。 
D112) 
个 增长 幅度 


记录 算法 2.3 中 比较 的 数量 并 将 其 除 以 使 用 的 序列 长 度 是 一 道 简单 的 练习 (请 见 练习 
大 量 的 实验 证 明 平 均 每 个 增幅 所 带 来 的 比较 次 数 约 为 N“, 但 只 有 在 入 很 大 的 时 候 这 
才 会 变 得 明显 。 这 个 性 质 似乎 也 和 输入 模型 无 关 。 


有 经 验 的 程序 员 有 时 会 选择 希 尔 排序 ， 因 为 对 于 中 等 大 小 的 数组 它 的 运行 时 间 是 可 以 接受 的 。 


它 的 代 


码 量 很 小 ， 


1 更 加 高 效 的 算法 ， 但 


且 不 需要 使 用 额外 的 内 存 空 间 。 在 下 面 的 几 节 中 我 们 会 看 到 


除了 对 于 很 大 的 W， 它 们 可 能 只 会 比 硕 尔 排序 快 两 倍 ( 可 能 还 达 不 到 ) ， 而 且 更 复杂 。 如 果 你 需 
解决 一 个 排序 问题 而 又 没有 系统 排序 函数 可 用 ( 例如 直接 接触 硬件 或 是 运行 于 般 入 式 系统 中 的 代 
可 以 先 用 希 尔 排 序 ， 然 后 再 考虑 是 否 值得 将 它 替 换 为 更 加 复杂 的 排序 算法 。 


人 码 ) ， 


> 
CN 


1 


202 
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问 ”排序 看 起 来 是 个 很 简单 的 问题 ， 我 们 用 计算 机 不 是 可 以 做 很 多 更 有 意思 的 事情 吗 ? 


答 也 许 吧 ,但 快速 的 排序 算法 才 使 得 那些 更 有 意思 的 事情 成 为 可 能 。 在 2.5 节 以 及 全 书 的 其 他 音节 你 
都 可 以 找到 很 多 这 样 的 例子 。 排 序 算法 今天 仍然 值得 我 们 学 习 是 因为 它 易于 理解 ， 你 能 从 中 领会 到 


许多 精妙 之 处 。 
问 为 什么 有 这 么 多 排序 算法 ? 


答 原因 之 一 是 许多 排序 算法 的 性 能 都 和 输入 模型 有 很 大 的 关系 ， 因 此 不 同 的 算法 适用 于 不 同 应 用 场景 中 的 
不 同和 输入。 例如 ， 对 于 部 分 有 序 和 小 规模 的 数组 应 该 选择 插入 排序 。 其 他 限制 条 件 ， 例 如 空间 和 重复 的 


主键 ， 也 都 是 需要 考虑 的 因素 。 我 们 将 会 在 2.5 节 中 再 次 讨论 这 个 问题 。 
问 ”为 什么 要 使 用 1ess() 和 exchQ 这 些 不 起 眼 的 辅助 函数 ? 


答 它们 抽象 了 所 有 排序 算法 都 会 用 到 的 共同 操作 ， 这 种 抽象 使 得 代码 更 便于 理解 。 而 且 它 们 增强 了 代 


码 的 可 移植 性 。 例 如 ， 算 法 2.1 和 算法 2.2 中 的 大 部 分 代码 在 其 他 几 种 编程 语言 中 也 是 可 以 执行 的 。 
即使 是 在 Java 中 ， 只 要 将 lessQ 〇 实现 为 v < w， 这 些 算法 的 代码 就 可 以 将 不 支持 Comparable 接 


口 的 基本 数据 类 型 排序 了 。 


问 ” 当 我 运行 SortCompare 时 ， 每 次 的 结果 都 不 一 样 〈 而 且 和 书 上 的 也 不 相同 ) ， 为 什么 ? 
答对 于 初学 者 ， 你 的 计算 机 和 我 们 的 计算 机 不 同 ， 操 作 系统 、Java 运行 时 环境 等 都 不 一 样 。 这 些 不 同 


可 能 导致 算法 代码 生成 的 机 器 码 不 同 。 每 次 运行 所 得 结果 不 同 的 原因 可 能 在 于 当时 运行 的 其 他 程序 
或 是 很 多 其 他 原因 。 大 量 的 重复 实验 可 以 淡化 这 种 干扰 ， 我 们 的 经 验 是 现 如 今 算法 性 能 的 微小 差异 


很 难 观察 。 这 就 是 我 们 要 关注 较 大 差异 的 原因 。 


2.1.1 按照 算法 2.1 所 示 轨 迹 的 格式 给 出 选择 排序 是 如 何 将 数组 EA SYQUESTION 排序 的 。 


2.1.2 ”在 选择 排序 中 ， 一 个 元 素 最 多 可 能 会 被 交换 多 少 次 ? 平均 可 能 会 被 交换 多 少 次 ? 

2.1.3 ”构造 一 个 含有 图 个 元 素 的 数组 ， 使 选择 排序 (算法 2.1 ) 运行 过 程 中 a[j] < a[m 
会 不 断 更 新 ) 成 功 的 次 数 最 大 。 

2.1.4 按照 算法 2.2 所 示 轨 迹 的 格式 给 出 插入 排序 是 如 何 将 数组 EA SYQUESTI 

2.1.5 构造 一 个 含有 N 个 元 素 的 数组 ， 使 插入 排序 (算法 2.2 ) 运行 过 程 中 内 循环 ( for ) 

2.1.6 在 所 有 的 主键 都 相同 时 ， 选 择 排序 和 插 和 人 排序 谁 更 快 ? 

2.1.7 “对 于 逆序 数组 ， 选 择 排序 和 插入 排序 谁 更 快 ? 


in] (由 此 min 


0 N 排序 的 。 
的 两 个 判断 结 


2.1.8 ”假设 元 素 只 可 能 有 三 种 值 ， 使 用 插入 排序 处 理 这 样 一 个 随机 数组 的 运行 时 间 是 线 怕 
别 的 ? 或 是 介 于 两 者 之 间 ? 

2.1.9 按照 算法 2.3 所 示 轨 迹 的 格式 给 出 希 尔 排序 是 如 何 将 数组 EA SYSHELLS 
STION 排序 的 。 

2.1.10 在 硕 尔 排序 中 为 什么 在 实现 h 有 序 时 不 使 用 选择 排序 ? 

2.1.11 将 希 尔 排序 中 实时 计算 递增 序列 改 为 预先 计算 并 存储 在 一 个 数组 中 。 


E 的 还 是 平方 级 


ORTQUWE 


2.1.12 令 希 尔 排序 打印 出 递增 序列 的 每 个 元 素 所 带 来 的 比较 次 数 和 数组 大 小 的 比值 。 编 写 一 个 测试 用 
例 对 随机 Double 数组 进行 希 尔 排序 ， 验 证 该 值 是 一 个 小 常数 ， 数 组 大 小 按照 10 的 需 次 递增 ， 


2.1.14 


2.1.15 


2.1.16 


2.1.17 


2.1.18 


2.1:19 


2.1.20 
12 


2.1.22 
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不 小 于 100。 


纸牌 排序 。 说 说 你 会 如 何 将 一 副 扑 克 牌 按 花 色 排 序 ( 花色 顺序 是 黑 桃 、 红 桃 、 梅 花 和 方 片 ) ， 
限制 条 件 是 所 有 有 牌 都 是 背面 朝 上 排 成 一 列 ， 而 你 一 次 只 能 翻 看 两 张 牌 或 者 交换 两 张 牌 (保持 背 
面 朝 上 ) 。 
出 列 排 序 。 说 说 你 会 如 何 将 一 副 扑克 有 牌 排序 ， 限 制 条 件 是 只 能 查看 最 上 面 的 两 张 牌 ， 交 换 最 上 
面 的 两 张 牌 ,或 是 将 最 上 面 的 一 张 牌 放 到 这 摊牌 的 最 下 面 。 
昂贵 的 交换 。 一 家 货运 公司 的 一 位 职员 得 到 了 一 项 任务 ， 需 要 将 若干 大 货 箱 按照 发 货 时 间 摆 放 。 
比较 发 货 时 间 很 容易 〈 对 照 标签 即 可 ) ， 但 将 两 个 货 箱 交 换 位 置 则 很 困难 〈 移动 麻烦 ) 。 仓 库 
已 经 快 满 了 ， 只 有 一 个 空闲 的 仓位 。 这 位 职员 应 该 使 用 哪 种 排序 算法 呢 ? 
验证 。 编 写 一 个 check0) 方法 ,调用 sortQ 对 任意 数组 排序 。 如 果 排 序 成 功 而 且 数 组 中 的 所 
有 对 象 均 没有 被 修改 则 返回 true， 和 否则 返回 false。 不 要 假设 sort() 只 能 通过 exch() 来 移动 
数据 ， 可 以 信任 并 使 用 Arrays.sortO)。 
动画 。 修 改 插入 排序 和 选择 排序 的 代码 ， 使 之 将 数组 内 容 绘制 成 正文 中 所 示 的 棒状 图 。 在 每 一 
轮 排序 后 重 绘图 片 来 产生 动画 效果 ， 并 以 一 张 “ 有 序 ” 的 图 片 作为 结束 ， 即 所 有 圆 棒 均 已 按照 
高 度 有 序 排列 。 提 示 : 使 用 类 似 于 正文 中 的 用 例 来 随机 生成 Double 值 ， 在 排序 代码 的 适当 位 置 
调用 show0) 方法 ， 并 在 showQ 〇 方法 中 清理 画布 并 绘制 棒状 图 。 
可 视 轨迹 。 修 改 你 为 上 一 题 给 出 的 解答 ， 为 插入 排序 和 选择 排序 生成 和 正文 中 类 似 的 可 视 轨迹 。 
提示 : 使 用 setYscale() 函数 是 一 个 明智 的 选择 。 附 加 题 ， 添加 必要 的 代码 ， 与 正文 中 的 图 片 
样 用 红色 和 灰色 强调 不 同 角 色 的 元 素 。 
希 尔 排 序 的 最 坏 情况 。 用 1 到 100 构造 一 个 含有 100 个 元 素 的 数组 并 用 希 尔 排 序 和 递增 序列 1 4 
13 40 对 其 排序 ， 使 比较 的 次 数 尽 可 能 和 
希 尔 排序 的 最 好 情况 。 最 好 情况 是 什么 ?证 明 你 的 结论 。 
可 比较 的 交易 。 用 我 们 的 Date 类 (请 见 2.1.1.4 节 ) 作 为 模板 扩展 你 的 Transaction 类 (请 
见 练习 1.2.13 ) ， 实 现 Comparable 接口 ， 使 交易 能 够 按照 金额 排序 。 
解答 : 


public class Transaction implements Comparable<Transaction> 


{ 


private final double amount; 


public int compareTo(Transaction that) 
€ 
if (this.amount > that.amount) return +1; 
if (this.amount < that.amount) return -1; 
return 0; 
} 
3 
交易 排序 测试 用 例 。 编 写 一 个 SortTransaction 类 ， 在 静态 方法 mainQ 中 从 标准 输入 读 取 一 
系列 交易 ， 将 它们 排序 并 在 标准 输出 中 打印 结果 (请 见 练习 1.3.17 ) 。 
解答 : 


204 


205 
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public class SortTransactions 
{ 
public static Transaction[] readTransactions() 
{ // 请 见 练习 1.3.17 } 
public static void main(String[] args) 
{ 
Transaction[] transactions = readTransactions() ; 
Shell.sort(transactions); 
for (Transaction t : transactions) 
Stdout.println(Ct) ; 


200 站 


mm 了 人 日 
图 实验 是 


2.1.23 ”纸牌 排序 。 请 几 位 朋友 分 别 将 一 副 扑克 有 牌 排序 ( 见 练 习 2.1.13 ) 。 仔 细 观 察 并 记录 他 们 所 使 用 的 
方法 。 

2.1.24 ”插入 排序 的 哨兵 。 在 插入 排序 的 实现 中 先 找 出 最 小 的 元 素 并 将 其 置 于 数组 的 最 左边 ， 这 样 就 能 
去 掉 内 循环 的 判断 条 件 j>0。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 注 意 : 这 是 一 种 常见 

的 规避 边界 测试 的 方法 ， 能 够 省 略 判断 条 件 的 元 素 通 常 被 称 为 哨兵 。 

2.1.25 不 需要 交换 的 插入 排序 。 在 插入 排序 的 实现 中 使 较 大 元 素 右 移 一 位 只 需要 访问 一 次 数组 ( 而 不 

使 用 exch() ) 。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 

2.1.26 原始 数据 类 型 ,编写 一 个 能 够 处 理 int 值 的 插入 排序 的 新 版 本 , 比较 它 和 正文 中 所 给 出 的 实现 ( 能 
够 隐 式 地 用 自动 装 箱 和 拆 箱 转 换 Integer 值 并 排序 ) 的 性 能 。 

2.1.27 项 尔 排 序 的 用 时 是 次 平方 级 的 。 在 你 的 计算 机 上 用 SortCompare 比较 希 尔 排 序 和 插入 排序 以 及 
选择 排序 。 测 试 数组 的 大 小 按照 2 的 究 次 递增 ,从 128 开始 。 

2.1.28 相等 的 主键 。 对 于 主键 仅 可 能 取 两 种 值 的 数组 ， 评 估 和 验证 插入 排序 和 选择 排序 的 性 能 ， 假 设 
两 种 主键 值 出 现 的 概率 相同 。 

2.1.29 项 尔 排 序 的 递增 序列 。 通 过 实验 比较 算法 2.3 中 所 使 用 的 递增 序列 和 递增 序列 1，5，19，41， 
109，209，505，929，2161，3905，8929，16 001，36 289，64 769，146 305，260 609 ( 这 是 通 
过 序列 9 x 4-9 x241 和 4-3x2+1 综合 得 到 的 ) 。 可 以 参考 练习 2.1.11。 

2.1.30 几何 级 数 递增 序列 。 通 过 实验 找到 一 个 +， 使 得 对 于 大 小 为 N=10" 的 任意 随机 数组 ， 使 用 递增 序 
列 1, [dj, [Lf], [2j, Lz],，… 的 希 尔 排序 的 运行 时 间 最 短 。 给 出 你 能 找到 的 三 个 最 佳 1 值 以 及 相 
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以 下 练习 描述 的 是 各 种 用 于 评估 排序 算法 的 测试 用 例 。 它 们 的 作用 是 用 随机 数据 帮助 你 增进 对 
性 能 特性 的 理解 。 随 着 命令 行 指定 的 实验 次 数 的 增 大 ， 可 以 和 SortCompare 一 样 在 它们 中 使 用 
time() 函数 来 得 到 更 精确 的 结果 。 在 以 后 的 几 节 中 我 们 会 使 用 这 些 练 习 来 评估 更 加 复杂 的 算法 。 

2.1.31 双 倍 测试。 编写 一 个 能 够 对 排序 算法 进行 双 倍 测试 的 用 例 。 数 组 规模 N 的 起 始 值 为 1000， 排 序 
后 打印 N、 售 计 排 序 用 时 、 实 际 排序 用 时 以 及 在 N 增 倍 之 后 两 次 用 时 的 比例 。 用 这 有 段 程序 验证 在 
随机 输入 模型 下 插入 排序 和 选择 排序 的 运行 时 间 都 是 平方 级 别 的 。 对 希 尔 排 序 的 性 能 作出 猜想 
并 验证 你 的 猜想 。 

2.1.32 运行 时 间 曲 线 图 。 编 写 一 个 测试 用 例 ， 使 用 StdDraw 在 各 种 不 同 规模 的 随机 输入 下 将 算法 的 平 
均 运 行 时 间 绘制 成 一 张 曲线 图 。 可 能 需要 添加 一 两 个 命令 行 参数 ， 请 尽量 设计 一 个 实用 的 工具 。 

2.1.33 分布 图 。 对 于 你 为 练习 2.1.33 给 出 的 测试 用 例 ， 在 一 个 无 穷 循 环 中 调用 sortQ 方法 将 由 第 三 个 
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命令 行 参 数 指定 大 小 的 数组 排序 ， 记 录 每 次 排序 的 用 时 并 使 用 StdDraw 在 图 上 画 出 所 有 平均 运 
行 时 间 ， 应 该 能 够 得 到 一 张 运行 时 间 的 分 布 图 。 
罕见 情况 。 编 写 一 个 测试 用 例 ， 调 用 sort 0 方法 对 实际 应 用 中 可 能 出 现 困难 或 极端 情况 的 数组 
进行 排序 。 比 如 ， 数 组 可 能 已 经 是 有 序 的 ， 或 是 逆序 的 ， 数 组 的 所 有 主键 相同 ， 数 组 的 主键 只 
有 两 种 值 ， 大 小 为 0 或 是 1 的 数组 。 
不 均匀 的 概率 分 布 。 编 写 一 个 测试 用 例 ， 使 用 非 均匀 分 布 的 概率 来 生成 随机 排列 的 数据 ,包括 : 
口 高 斯 分 布 ; 

口 泊 松 分 布 ; 

口 几何 分 布 ; 

口 离散 分 布 〈 一 种 特殊 情况 请 见 练习 2.1.28 ) 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

不 均匀 的 数据 。 编 写 一 个 测试 用 例 ， 生 成 不 均匀 的 测试 数据 ， 包 括 : 

口 一 半数 据 是 0， 一半 是 1; 

口 一 半数 据 是 0，1/4 是 1，1/4 是 2， 以 此 类 推 ; 

口 一 半数 据 是 0， 一 半 是 随机 int 值 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

部 分 有 序 。 编 写 一 个 测试 用 例 ， 生 成 部 分 有 序 的 数组 ， 包 括 : 

口 95% 有 序 ， 其 余部 分 为 随机 值 ; 

口 所 有 的 元 素 和 它们 的 正确 位 置 的 距离 都 不 超过 10; 

口 5% 的 元 素 随机 分 布 在 整个 数组 中 ， 剩 下 的 数据 都 是 有 序 的 。 

评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 

不 同类 型 的 元 素 。 编写 一 个 测试 用 例 , 生成 由 多 种 数据 类 型 元 素 组 成 的 数组 , 元 素 的 主键 值 随机 ， 
包括 : 

口 每 个 元 素 的 主键 均 为 String 类 型 ( 至 少 长 10 个 字符 ) ， 并 含有 一 个 double 值 ; 

口 每 个 元 素 的 主键 均 为 double 类 型 ， 并 含有 10 个 String 值 (每 个 都 至 少 长 10 个 字符 ) ; 

口 每 个 元 素 的 主键 均 为 int 类 型 ， 并 含有 一 个 int[20] 值 

评 佑 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 
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2.2 ”归并 排序 


在 本 节 中 我 们 所 讨论 的 算法 都 基于 归并 这 个 简单 的 操作 ， 即 将 两 个 有 序 的 数组 归并 成 一 个 更 大 
的 有 序数 组 。 很 快 人 们 就 根据 这 个 操作 发 明了 一 种 简单 的 递归 排序 算法 : 归并 排序 。 要 将 一 个 数组 
排序 ， 可 以 先 〈 递 归 地 ) 将 它 分 成 两 半分 别 排序 ， 然 后 将 结果 归并 起 来 。 你 将 会 看 到 ， 归 并 排序 最 
吸引 人 的 性 质 是 它 能 够 保证 将 任意 长 度 为 N 的 数组 排序 所 需 时 间 和 NlogN 成 正比 ; 它 的 主要 缺点 
则 是 它 所 需 的 额外 空间 和 成 正比 。 简 单 的 归并 排序 如 图 2.2.1 所 示 。 


输入 ME RG ES0O RT EX AMP L E 
将 左 半 部 分 排序 E E CG M 0 R R S 

将 右 半 部 分 排序 A EE LM PT X 
归并 结果 A E E E E CG LM M0 PR RS T X 


2.2.1 ”归并 排序 示意 图 


2.2.1 原 地 归并 的 抽象 方法 

实现 归并 的 一 种 直截了当 的 办 法 是 将 两 个 不 同 的 有 序数 组 归并 到 第 三 个 数组 中 ， 两 个 数组 中 的 
元 素 应 该 都 实现 了 Comparable 接口 。 实 现 的 方法 很 简单 ， 创 建 一 个 适当 大 小 的 数组 然后 将 两 个 输 
入 数组 中 的 元 素 一 个 个 从 小 到 大 放 入 这 个 数组 中 。 

但 是 ， 当 用 归并 将 一 个 大 数组 排序 时 ， 我 们 需要 进行 很 多 次 归并 ， 因 此 在 每 次 归并 时 都 创建 一 
个 新 数组 来 存储 排序 结果 会 带 来 问题 。 我 们 更 希望 有 一 种 能 够 在 原 地 归并 的 方法 ， 这 样 就 可 以 先 将 
前 半 部 分 排序 ， 再 将 后 半 部 分 排序 ， 然 后 在 数组 中 移动 元 素 而 不 需要 使 用 额外 的 空间 。 你 可 以 先 售 
下 来 想 想 应 该 如 何 实现 这 一 点 ， 告 一 看 很 容易 做 到 ， 但 实际 上 已 有 的 实现 都 非常 复杂 ， 尤 其 是 和 使 
用 额外 空间 的 方法 相 比 。 

尽管 如 此 ， 将 原 地 归并 抽象 化 仍然 是 有 帮助 的 。 与 之 对 应 的 是 我 们 的 方法 签名 merge (a，1o， 
mid，hi)， 它 会 将 子 数组 a[1o. .mid] 和 a[mid+1. .hi] 归并 成 一 个 有 序 的 数组 并 将 结果 存放 在 
a[1o..hi] 中 。 下 面 的 代码 只 用 几 行 就 实现 了 这 种 归并 。 它 将 涉及 的 所 有 元 素 复制 到 一 个 辅助 数组 
中 ， 再 把 归并 的 结果 放 回 原 数组 中 。 实 现 的 另 一 种 方法 请 见 练习 2.2.10。 


原 地 归并 的 抽象 方法 


public static void merge(Comparable[] a，int lo, int mid，int hi) 
{ // 将 a[lo..mid] 和 a[mid+1..hi] 归并 
int 1 = 1o0, j = mid+l; 


for (Cint k = 10; k <= hi; k++) // 将 a[1lo..hi] 复 制 到 aux[1o..hi] 
aux[k] = a[k]; 


for Cint k = 1o0; k <= hi; k++) // 归并 回 到 a[1o..hi] 


if (i > mid) a[k] = aux[j++]; 
else if (j > hi ) a[k] = aux[i++]; 
else if (less(aux[j], aux[i])) a[k] = aux[j++]; 
else a[k] = aux[i+t+]; 


} 


该 方法 先 将 所 有 元 素 复制 到 aux[] 中 , 然后 再 归并 回 a[] 中 。 方法 在 归并 时 (第 二 个 for 循环 ) 
进行 了 4 个 条 件 判断 ， 左 半边 用 尽 ( 取 右 半边 的 元 素 ) 、 右 半边 用 尽 ( 取 左 半边 的 元 素 ) 、 右 半边 
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的 当前 元 素 小 于 左 半边 的 当前 元 素 ( 取 右 半边 的 元 素 ) 以 及 右 半边 的 当前 元 素 大 于 等 于 左 半 边 的 当 
前 元 素 ( 取 左 半边 的 元 素 ) 。 


a[] aux[] 
k 0123456789 ij 012345.6.7 8 9 
输入 E E GM RIAC ERT 
复制 E E GM RIA C ERT E E GM RIA C E RT 
0 5 
0 A 0 6 E A 
1 C 0 7 E C 
2 E 1 7 E E 
3 E 2 7 E E 
4 E 2 8 G E 
5 G 3 8 G R 
6 M 4 8 M R 
7 R 5 8 R R 
8 R 5 9 R 
9 T 6 10 T 
归并 结果 AC EE E GM RRIT 
原 地 归并 的 抽象 方法 的 轨迹 271 


2.2.2 自 顶 向 下 的 归并 排序 

算法 2.4 基于 原 地 归并 的 抽象 实现 了 另 一 种 递归 归并 ， 这 也 是 应 用 高 效 算 法 设计 中 分 治 思想 的 
最 典型 的 一 个 例子 。 这 段 递 归 代 码 是 归纳 证 明 算法 能 够 正确 地 将 数组 排序 的 基础 : 如 果 它 能 将 两 个 
子 数组 排序 ， 它 就 能 够 通过 归并 两 个 子 数 组 来 将 整个 数组 排序 。 


算法 2.4 自 顶 向 下 的 归并 排序 


public class Merge 


{ 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 


public static void sort(Comparable[] a) 


{ 
aux = new Comparable[a.length]; // 一 次 性 分 配 空间 
sort(a, 0, a.length - 1); 

} 


private static void sort(Comparable[] a, int lo, int hi) 
{ // 将 数组 a[1o..hi] 排 序 
if (hi <= 10) return; 
int mid = lo + (hi - 10)/2; 
sort(a, 1o, mid); // 将 左 半边 排序 
sort(a, mid+1, hi); // 将 右 半边 排序 
merge(a，10o，mid，hi); // 归并 结果 (代码 见 “ 原 地 归并 的 抽象 方法 ” ) 
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要 对 子 数组 a[1o. .hi] 进行 排序 ， 先 将 它 分 为 a[lo..mid] 和 a[mid+1. .hi] 两 部 分 ， 分 别 通过 
递归 调用 将 它们 单独 排序 ， 最 后 将 有 序 的 子 数组 归并 为 最 终 的 排序 结果 。 


a[] 
从 J 0 12 3 4 56 7 8 9101112131415 
M E RG E S OR T E XY A M P L E 
merge(a, 0, 0, 1) E M 
merge(a, 2, 2, 3) G R 
merge(a, 0, 1, 3) E G M R 
merge(a, 4, 4, 5) ES 
merge(a, 6, 6, 7) 0 R 
merge(a, 4, 5, 7) E 0 R S 
merge(a, 0, 3, 7) E E GC M O R RS 
merge(a, 8, 8, 9) E: 生 
merge(a, 10, 10, 11) A Xx 
merge(a, 8, 9, 11) A E T Xx 
merge(a, 12, 12, 13) M P 
merge(a, 14, 14, 15) E -上 
merge(a, 12, 13, 15) E L M P 
merge(a, 8, 11, 15) A E E L M P T x 
merge(a, 0, 7, 15) EEEE SG EMMO PEPERR ST X 
自 顶 向 下 的 归并 排序 中 归并 结果 的 轨迹 
要 理解 归并 排序 就 要 仔细 研究 该 方法 调 pe sort(a, 0, 15) 
] 的 动态 情况 ， 如 图 2.22 中 的 轨迹 所 示 。 要 部 分 排序 “A 03) 
将 a[0..15] 排序 ，sortQ 方法 会 调用 自己 将 sort(a, 0, 1) 
a[0..7] 排序 ， 再 在 其 中 调用 自己 将 a[0. .3] 和 
a[0. .1] 排序 。 在 将 a[0] 和 a[1] 分 别 排序 之 后 ， mergeCa, 2, 2, 3 
终于 才 会 开始 将 a[0] 和 a[1] 归并 ( 简单 起 见 ， ple We 
sort(a, 4, 
我 们 在 轨迹 中 把 对 单个 元 素 的 数组 进行 排序 的 调 DPCa 还 ， 5 
用 省 略 了 ) 。 第 二 次 归并 是 a[2] 和 a[3] ， 然 后 merge(a, 4, 4, 5) 
3 二 Er 、 1G3 7 沁 
是 a[0..1] 和 a[2..3]， 以 此 类 推 。 从 这 段 轨迹 ee re 
可 以 看 到 ，sort0) 方法 的 作用 其 实在 于 安排 多 次 merge(a, 4, 5, 7) 
mergeC) 方法 调用 的 正确 顺序 。 后 面 几 节 还 会 用 人 
到 这 个 发 现 。 部 分 排序 sort(a，8，11) 
这 段 代 码 也 是 我 们 分 析 归 并 排序 的 运行 时 间 ee 
的 基础 。 因 为 归并 排序 是 算法 设计 中 分 治 思想 的 sort(a, 10, 11) 
典型 应 用 ,我 们 会 详细 对 它 进行 分 析 。 merge(a, 10, 10, 11) 
a A > 、 merge(a, 8, 9, 11) 
我 们 也 可 以 通过 图 2.2.3 所 示 的 树 状 图 来 理 sort(a, 12, 15) 
解 命题 F。 每 个 结 点 都 表示 一 个 sortQ 方法 通 sort(a, 12, 13) 
\ so. a 过 merge(a, 12, 12, 13) 
过 merge() 方法 归并 而 成 的 子 数组 。 这 棵 树 正 sort(a, 14, 15) 
好 有 nn 层 。 对 于 0 到 -1 之 间 的 任意 k， 自 顶 向 merge(a, 14, 14,135) 
Pe 六 过半 人 六 i 9 merge(a, 12, 13, 15) 
下 的 第 层 有 2: 个子 数 组 ， 每 个 数组 的 长 度 为 ee 
2”™， 归 并 最 多 需要 2 次 比较 。 因 此 每 层 的 比 归并 结果 merge(a，0，7，15) 


较 次 数 为 2 x 2 2 ，7 层 总 共 为 12 二 MigN。 


图 2.2.2 自 顶 向 下 的 归并 排序 的 调用 轨迹 
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命题 F。 对 于 长 度 为 N 的 任意 数组 ， 自 顶 向 下 的 归并 排序 需要 WNlgN 至 NlgN 次 比较 。 
证 明 。 令 CCV) 表示 将 一 个 长 度 为 N 的 数组 排序 时 所 需要 的 比较 次 数 。 我 们 有 C(0)=C(1)=0， 对 
于 N>0， 通 过 说 归 的 sort() 方法 我 们 可 以 由 相应 的 归纳 关系 得 到 比较 次 数 的 上 限 : 

CO < C( N22D)+ C(IN2D)+N 
右边 的 第 一 项 是 将 数组 的 左 半 部 分 排序 所 用 的 比较 次 数 ， 第 二 项 是 将 数组 的 右 半 部 分 排序 所 用 
的 比较 次 数 ， 第 三 项 是 归并 所 用 的 比较 次 数 。 因 为 归并 所 需 的 比较 次 数 最 少 为 LN/2|， 比 较 次 
数 的 下 限 是 : 


CN) = C( N72) + C( NI2)) + LN/2| 
当 和 为 2 的 窒 ( 即 N=2”) 且 上 限 不 等 式 的 等 号 成 立时 我 们 能 够 得 到 一 个 解 。 首 先 ， 因 为 
| W2 有 日 W2 上 2 守 ， 可 以 得 到 : 


C2") = 2C(2™")+2" 
将 两 边 同 时 除 以 2" 可 得 : 
CDY= CE 2 
用 这 个 公式 替换 右边 的 第 一 项 ， 可 得 : 
C2 = C2 2 +1+1 
将 上 一 步 重复 1-1 遍 可 得 : 


Go Gel) On 


SS 


将 两 边 同 时 乘 以 2" 就 可 以 解 得 : 
CN)=C(2")=n2"=NlgN 

对 于 一 般 的 N， 得 到 的 准确 值 要 更 复杂 一 些 。 但 对 比较 次 数 的 上 下 界 不 等 式 使 用 相同 的 方法 不 

难 证 明 前 面 所 述 的 对 于 任意 N 的 结论 。 这 个 结论 对 于 任意 输入 值 和 顺序 都 成 立 。 


图 2.2.3 N=16 时 归并 排序 中 子 数组 的 依赖 树 274 


命题 G。 对 于 长 度 为 W 的 任意 数组 ， 自 顶 向 下 的 归并 排序 最 多 需要 访问 数组 6NlgN 次 。 


证 明 。 每 次 归并 最 多 需要 访问 数组 6N 次 (2N 次 用 来 复制 , 2N 次 用 来 将 排 好 序 的 元 素 移动 回去 ， 
另外 最 多 比较 2N 次 ) ， 根 据 命题 F 即 可 得 到 这 个 命题 的 结果 。 
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命题 F 和 命题 G 告诉 我 们 归并 排序 所 需 的 时 间 和 NlgN 成 正比 。 这 和 2.1 节 所 述 的 初级 排序 方法 
不 可 同日 而 语 ， 它 表明 我 们 只 需要 比 遍历 整个 数组 多 个 对 数 因子 的 时 间 就 能 将 一 个 庞大 的 数组 排序 。 
可 以 用 归并 排序 处 理 数 百 万 甚至 更 大 规模 的 数组 ， 这 是 插入 排序 或 者 选择 排序 做 不 到 的 。 归 并 排序 的 
主要 缺点 是 辅助 数组 所 使 用 的 额外 空间 和 WN 的 大 小 成 正比 。 另 一 方面 ， 通 过 一 些 细致 的 思考 我 们 还 


能 够 大 幅度 缩短 归并 排序 的 运行 时 间 。 
2.2.2.1 对 小 规模 子 数 组 使 用 插入 排序 


用 不 同 的 方法 处 理 小 规模 问题 能 改进 大 多 数 递归 算法 的 性 能 ， 因 为 递归 会 使 小 规模 问题 中 方法 
的 调用 过 于 频繁 ， 所 以 改进 对 它们 的 处 理 方法 就 能 改进 整个 算法 。 对 排序 来 说 ， 我 们 已 经 
排序 (或 者 选择 排序 ) 非常 简单 ， 因 此 很 可 能 在 小 数组 上 比 归并 排序 更 快 。 和 之 前 一 样 


知道 插入 
届 可 视 


轨迹 图 能 够 很 好 地 说 明 归 并 排序 的 行为 方式 。 图 2.2.4 中 的 可 视 轨迹 图 显示 的 是 改良 后 的 归并 排序 
的 所 有 操作 。 使 用 插入 排序 处 理 小 规模 的 子 数组 ( 比如 长 度 小 于 15 ) 一 般 可 以 将 归并 排序 的 运行 时 


间 缩 短 10% 一 15% (请 见 练习 2.2.23 ) 。 


第 一 个 子 数组 lll 


第 二 个 子 数组 ll 


第 一 次 归并 | 
.| 


前 半 部 分 排序 完成 .om soo 
| 
ll 
要 aaa 
-aa 
al 


图 2.2.4 改进 了 小 规模 子 数组 排序 方法 后 的 自 顶 向 下 的 归并 排序 的 可 视 轨迹 
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2.2.2.2 ”测试 数组 是 否 已 经 有 序 
我 们 可 以 添加 一 个 判断 条 件 ， 如 果 a[mid] 小 于 等 于 a[mid+1] ， 我 们 就 认为 数组 已 经 是 有 序 
的 并 跳 过 mergeQ 方法 。 这 个 改动 不 影响 排序 的 递归 调用 ,但 是 任意 有 序 的 子 数 组 算法 的 运行 时 间 
就 变 为 线性 的 了 (请 见 练习 2.2.8 ) 。 
2.2.2.3 不 将 元 素 复制 到 辅助 数组 
我 们 可 以 节省 将 数组 元 素 复制 到 用 于 归并 的 辅助 数组 所 用 的 时 间 (但 空间 不 行 ) 。 要 做 到 这 一 
点 我 们 要 调用 两 种 排序 方法 ， 一 种 将 数据 从 输入 数组 排序 到 辅助 数组 ， 一 种 将 数据 从 辅助 数组 排序 
到 输入 数组 。 这 种 方法 需要 一 些 技 巧 ， 我 们 要 在 递归 调用 的 每 个 层次 交换 输入 数组 和 辅助 数组 的 角 ”|275 


色 (请 见 练习 2.2.11 ) 。 276 
这 里 我 们 要 重新 强调 第 1 章 中 提出 的 一 个 很 容易 遗忘 的 要 点 。 在 每 一 节 中 ， 我 们 会 将 书 中 的 每 


个 算法 都 看 做 某 种 应 用 的 关键 。 但 在 整体 上 ， 我 们 希望 学 习 的 是 为 每 种 应 用 找到 最 合适 的 算法 。 我 
们 并 不 是 在 推荐 读者 一 定 要 实现 所 提 到 的 这 些 改 进 方法 ， 而 是 提醒 大 家 不 要 对 算法 初始 实现 的 性 能 
盖 棺 定论 。 研 究 一 个 新 问题 时 ， 最 好 的 方法 是 先 实 现 一 个 你 能 想到 的 最 简单 的 程序 ， 当 它 成 为 瓶颈 
的 时 候 再 继续 改进 它 。 实 现 那些 只 能 把 运行 时 间 缩 短 某 个 常数 因子 的 改进 措施 可 能 并 不 值得 。 你 需 
要 用 实验 来 检验 一 项 改进 ， 正 如 本 书 中 所 有 练习 所 演示 的 那样 。 

对 于 归并 排序 ， 刚 才 列 出 的 三 个 建议 都 很 容易 实现 且 在 应 用 归并 排序 时 是 十 分 有 吸引 力 的 一 一 比 
如 本 章 最 后 讨论 的 情况 。 


2.2.3 自 底 向 上 的 归并 排序 

递归 实现 的 归并 排序 是 算法 设计 中 分 治 思想 的 典型 应 用 。 我 们 将 一 个 大 问题 分 割 成 小 问题 分 
别 解决 ， 然 后 用 所 有 小 问题 的 答案 来 解决 整个 大 问题 。 尽 管 我 们 考虑 的 问题 是 归并 两 个 大 数组 ， 
实际 上 我 们 归并 的 数组 大 多 数 都 非常 小 。 实 现 归并 sz=1 
排序 的 另 一 种 方法 是 先 归并 那些 微型 数组 ， 然 后 再 下 
成 对 归并 得 到 的 子 数组 ， 如 此 这 般 ， 直 到 我 们 将 整 
TT es 时 
所 需要 的 代码 量 更 少 。 首 先 我 们 进行 的 是 两 两 归并 ， 
( 把 每 个 元 素 想 象 成 一 个 大 小 为 1 的 数组 ) ， 然 后 
和 人 来 直 杀 二 人 天 个 为 1 的 玫 纪 》 各局 a 
个 元 素 的 数组 ) ， 然 后 是 八 八 的 归并 ， 一 直下 去 。 
能 比 第 一 个 子 数组 要 小 (但 这 对 merge(0) 方法 不 是 16 TN| 
问题 ) ， 如 果 不 是 的 话 所 有 的 归并 中 两 个 数组 大 小 ol 
都 应 该 一 样 ， 而 在 下 一 轮 中 子 数组 的 大 小 会 翻 倍 。 
此 过 程 的 可 视 轨 迹 如 图 2.2.5 所 示 。 TI 


海 


自 底 疝 上 的 归 并 排序 算法 的 实现 如 下 o 图 D095 自 底 向 上 的 归 并 排序 的 可 视 轨迹 271 
自 底 向 上 的 归并 排序 


public class MergeBU 


是 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 


176 PE 第 2 章 排 序 


278 


// merge() 方 法 的 代码 请 见 “ 原 地 归并 的 抽象 方法 ” 

public static void sort(Comparable[] a) 

{ // 进行 1gN 次 两 两 归并 
int N = a.length; 
aux = new Comparable[N]; 
for (int sz = 1; sz < N; sz = sz+s2z) // sz 子 数 组 大 小 

for (Cint lo = 0; 1o < N-sz; 1o += SZ+SZ) // 1o: 子 数组 索引 
merge(a，10o，1o+sz-1，Math.min(1o+sz+SZz-1，N-1)) ; 
} 


自 底 向 上 的 归并 排序 会 多 次 遍历 整个 数组 ， 根 据 子 数组 大 小 进行 两 两 归并 。 子 数组 的 大 小 sz 的 初始 值 
为 1, 每 次 加 倍 。 最 后 一 个 子 数组 的 大 小 只 有 在 数组 大 小 是 sz 的 偶数 倍 的 时 候 才 会 等 于 sz( 否则 它 会 比 sz 小 )。 


a[i] 

0 12 34 5 6 7 8 910 11 12 13 14 15 
| M E RG ESORT EX AMP LE 
merge(a, 0, 0, 1) E M 
merge(a, 2, 2, 3) G R 
merge(a, 4, 4, 5) E.'S 
merge(a, 6, 6, 7) 0 R 
merge(a, 8, 8, 9) 局 TT 
merge(a, 10, 10, 11) A Xx 
merge(a, 12, 12, 13) M P 
merge(a, 14, 14, 15) E L 

5 ,这 
merge(a, 0, 1, 3) E G M R 
merge(a, 4, 5, 7) E 0 R S 
merge(a, 8, 9, 11) A E T Xx 
merge(a, 12, 13, 15) E L M P 
sz=4 
merge(a, 0, 3, 7) E E GC M O R R S 
merge(a, 8, 11, 15) A E E L M P T Xx 
sz=8 
merge(a, 0, 7, 15) A E E E E GC L MM O P R R S T Xx 


自 底 向 上 的 归并 排序 的 归并 结果 


命题 H。 对 于 长 度 为 NN 的 任意 数组 ， 自 底 向 上 的 归并 排序 需要 1/2NlgN 至 NlgN 次 比较 ， 最 多 
访问 数组 6NlgN 次 。 


证 明 。 处 理 一 个 数组 的 遍 数 正好 是 [lgN|( 即 2" 过 N<2"! 中 的 n) 。 每 一 遍 会 访问 数组 6N 次 ， 
比较 次 数 在 N/2 入 之 间 。 


当 数 组 长 度 为 2 的 蜗 时 ， 自 顶 向 下 和 自 底 向 上 的 归并 排序 所 用 的 比较 次 数 和 数组 访问 次 数 正好 
相同 ， 只 是 顺序 不 同 。 其 他 时 候 ， 两 种 方法 的 比较 和 数组 访问 的 次 序 会 有 所 不 同 〈 请 见 练习 2.2.5 ) 。 
自 底 向 上 的 归并 排序 比较 适合 用 链表 组 织 的 数据 。 想 象 一 下 将 链表 先 按 大 小 为 1 的 子 链表 进行 
排序 ， 然 后 是 大 小 为 2 的 子 链表 ， 然 后 是 大 小 为 4 的 子 链表 等 。 这 种 方法 只 需要 重新 组 织 链表 链接 
就 能 将 链表 原 地 排序 〈 不 需要 创建 任何 新 的 链表 结 点 ) 
] 自 项 向 下 或 是 自 写 疝 上 的 式 实现 任何 分 治 类 的 算法 都 和 自然 。 归 并 排序 告诉 我 们 ， 当 能 够 
用 其 中 一 种 方法 解决 一 个 问题 时 ， 你 都 应 该 试 试 男 一 种 。 你 是 希望 像 Merge.sort() 中 那样 化 整 为 
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零 (然后 递归 地 解决 它们 ) 的 方式 解决 问题 ， 还 是 希望 像 MergeBU.sort(0) 中 那样 循序 渐进 地 解决 


问题 呢 ? 


2.2.4 排序 算法 的 复杂 度 


tan 


学 习 归 并 排序 的 一 个 重要 原因 是 它 是 证 明 计算 复杂 性 领域 的 一 个 重要 结论 的 基础 ， 而 计算 复杂 
性 能 够 帮助 我 们 理解 排序 自身 固有 的 难 易 程 度 。 计 算 复 杂 性 在 算法 设计 中 扮演 着 非常 重要 的 角色 ， 


而 这 个 结论 正 是 和 排序 算法 的 设计 直接 相关 的 ， 因 此 接 下 来 我 们 就 要 详细 地 讨论 它 。 


研究 复杂 度 的 第 一 步 是 建立 一 个 计算 模型 。 一 般 来 说 ， 研 究 者 会 尽量 寻找 一 个 和 问题 相关 的 最 
简单 的 模型 。 对 排序 来 说 ， 我 们 的 研究 对 象 是 基于 比较 的 算法 ， 它 们 对 数组 元 素 的 操作 方式 是 由 主 
键 的 比较 决定 的 。 一 个 基于 比较 的 算法 在 两 次 比较 之 间 可 能 会 进行 任意 规模 的 计算 ， 但 它 只 能 通过 
主键 之 间 的 比较 得 到 关于 某 个 主键 的 信息 。 因 为 我 们 局 限于 实现 了 Comparable 接口 的 对 象 ， 本 章 
中 的 所 有 算法 都 属于 这 一 类 ( 注意 ,我 们 忽略 了 访问 数组 的 开销 ) 。 在 第 5 章 中 ,我 们 会 讨论 不 局 


限于 Comparable 元 素 的 算法 。 


命题 |。 没 有 任何 基于 比较 的 算法 能 够 保证 使 用 少 于 lg (NI) ~ NlgN 次 比较 将 长 度 为 W 的 数组 
排序 。 


证 明 。 首 先 ， 假 设 没有 重复 的 主键 ， 因 为 任何 排序 算法 都 必须 能 够 处 理 这 种 情况 。 我 们 使 用 二 
又 树 来 表示 所 有 的 比较 。 树 中 的 结 点 要 么 是 一 片 叶 子 Gu Ww:)， 表 示 排 序 完成 上 且 原 输入 的 
排列 顺序 是 a[io], a[i1],…, a[iwi] ， 要 么 是 一 个 内 部 结 点 《(， 表 示 a[i] 和 a[j] 之 间 的 一 次 
比较 操作 ， 它 的 左 子 树 表示 a[i] 小 于 a[j] 时 进行 的 其 他 比较 ， 右 子 树 表示 a[i] 大 于 a[j] 
时 进行 的 其 他 比较 。 从 根 结 点 到 叶子 结 点 每 一 条 路 径 都 对 应 着 算法 在 建立 叶子 结 点 所 示 的 顺序 
时 进行 的 所 有 比较 。 例 如 ， 这 是 一 棵 N=3 时 的 比较 树 : 


我 们 从 来 没有 明确 地 构造 这 棵 树 一 一 它 只 是 用 来 描述 算法 中 的 比较 的 一 个 数学 工具 。 

从 比较 树 观 察 得 到 的 第 一 个 重要 结论 是 这 棵 树 应 该 至 少 有 NI 个 叶子 结 点 ， 因 为 W 个 不 同 的 主 
键 会 有 NI 种 不 同 的 排列 。 如 果 叶 子 结 点 少 于 NI， 那 肯定 有 一 些 排列 顺序 被 遗漏 了 。 算 法 对 于 
那些 被 遗漏 的 输入 肯定 会 失败 。 

从 根 结 点 到 叶子 结 点 的 一 条 路 径 上 的 内 部 结 点 的 数量 即 是 菜 种 输入 下 算法 进行 比较 的 次 数 。 我 们 
感 兴趣 的 是 这 种 路 径 能 有 多 长 ( 也 就 是 树 的 高 度 ) ， 因 为 这 也 就 是 算法 比较 次 数 的 最 坏 情况 。 二 
又 树 的 一 个 基本 的 组 合 学 性 质 就 是 高 度 为 严 的 树 最 多 只 可 能 有 2 个 叶子 结 点 ， 拥 有 2 个 结 点 的 
树 是 完美 平衡 的 ， 或 称 为 完全 树 。 下 图 所 示 的 就 是 一 个 /=4 的 例子 。 
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高 度 为 4 的 完全 树 
(灰色 部 分 所 示 ) ， 
共有 24=16 个 叶子 结 点 


任何 其 他 高 度 为 4 
的 树 (黑色 部 分 所 
示 ) 。 岂可 人 启 少 于 必 介 


结合 前 两 段 的 分 析 可 知 ， 任 意 基 于 比较 的 排序 算法 都 对 应 着 一 棵 高 hh 的 比较 树 (如 下 图 所 示 ) ， 


其 中 : 
NI 科 叶 子 结 点 的 数量 过 2 
口 RS D 要 人 ®-e Qn 吕 cf db a 证 h 
至 少 NI 个 叶子 结 点 不 超过 2 个 叶子 结 点 2 


有 hh 的 值 就 是 最 坏 情况 下 的 比较 次 数 ， 因 此 对 不 等 式 的 两 边 取 对 数 即 可 得 到 任意 算法 的 比较 次 数 
至 少 是 lgM!。 根 据 斯 特 灵 公式 对 阶乘 函数 的 近似 ( 见 表 1.4.6 ) 可 得 lgNI~NlgN。 


这 个 结论 告诉 了 我 们 在 设计 排序 算法 的 时 候 能 够 达到 的 最 佳 效果 。 例 如 ， 如 果 没 有 这 个 结论 ， 
我 们 可 能 会 去 尝试 设计 一 个 在 最 坏 情 况 下 比较 次 数 只 有 归并 排序 的 一 半 的 基于 比较 的 算法 。 命 题 I 
中 的 下 限 告诉 我 们 这 种 努力 是 没有 意义 的 一 一 这 样 的 算法 不 存在 。 这 是 一 个 重要 结论 ， 适 用 于 任何 
我 们 能 够 想到 的 基于 比较 的 算法 。 

命题 H 表明 归并 排序 在 最 坏 情 况 下 的 比较 次 数 为 ~NlgN。 这 是 其 他 排序 算法 复杂 度 的 上 限 ， 也 
就 是 说 更 好 的 算法 需要 保证 使 用 的 比较 次 数 更 少 。 命题 1 说 明 没 有 任何 排序 算法 能 够 用 少 于 ~NlgN 
次 比较 将 数组 排序 ， 这 是 其 他 排序 算法 复杂 度 的 下 限 。 也 就 是 说 ， 即 使 是 最 好 的 算法 在 最 坏 的 情况 
下 也 至 少 需要 这 么 多 次 比较 。 将 两 者 结合 起 来 也 就 意味 着 : 


命题 J。 归 并 排序 是 一 种 渐进 最 优 的 基于 比较 排序 的 算法 。 


证 明 。 更 准确 地 说 ， 这 多 话 的 意思 是 ， 归 并 排序 在 最 坏 情况 下 的 比较 次 数 和 任意 基于 比较 的 排 
序 算 法 所 需 的 最 少 比 较 次 数 都 是 ~NlgN。 命题 HH 和 命题 1 证 明了 这 些 结论 。 


需要 强调 的 是 ， 和 计算 模型 一 样 ， 我 们 需要 精确 地 定义 最 优 算 法 。 例 如 ， 我 们 可 以 严格 地 认为 
仅仅 只 需要 lgN! 次 比较 的 算法 才 是 最 优 的 排序 算法 。 我 们 不 这 么 做 的 原因 是 ， 即 使 对 于 很 大 的 N， 
这 种 算法 和 ( 比如 说 ) 归并 排序 之 间 的 差异 也 并 不 明显 。 或 者 我 们 也 可 以 放宽 最 优 的 定义 ， 使 之 包 
含 任意 在 最 坏 情况 下 的 比较 次 数 都 在 NlgN 的 某 个 常数 因子 范围 之 内 的 排序 算法 。 我 们 不 这 么 做 
原因 是 对 于 很 大 的 N， 这 种 算法 和 归并 排序 之 间 的 差距 还 是 很 明显 的 。 

计算 复杂 度 的 概念 可 能 会 让 人 觉得 很 抽象 ， 但 解决 可 计算 问题 内 在 困难 的 基础 性 研究 则 不 管 怎 


Ea 


其 
证 
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么 说 都 是 非常 必要 的 。 而 且 , 在 适用 的 情况 下 ， 关 键 在 于 计算 复杂 度 会 影响 优秀 软件 的 开发 。 首 先 ， 
准确 的 上 界 为 软件 工程 师 保 证 性 能 提供 了 空间 。 很 多 例子 表明 , 平方 级 别 排序 的 性 能 低 于 线性 排序 。 

其 次 ， 准 确 的 下 界 可 以 为 我 们 节省 很 多 时 间 ， 避 免 因 不 可 能 的 性 能 改进 而 投入 资源 。 

日 归并 排序 的 最 优 性 并 不 是 结束 ， 也 不 代表 在 实际 应 用 中 我 们 不 会 考虑 其 他 的 方法 了 ， 因 为 本 

节 中 的 理论 还 是 有 许多 局 限 性 的 ， 例 如 : 

口 归并 排序 的 空间 复杂 度 不 是 最 优 的 ; 

口 在 实践 中 不 一 定 会 遇 到 最 坏 情况 ; 

口 除了 比较 , 算法 的 其 他 操作 ( 例如 访问 数组 ) 也 可 能 很 重要 ; 

口 不 进行 比较 也 能 将 某 些 数据 排序 。 

因此 在 本 书 中 我 们 还 将 继续 学 习 其 他 一 些 排 序 算 法 。 282 


问 ”归并 排序 比 希 尔 排序 快 吗 ? 
答 ”在 实际 应 用 中 ， 它 们 的 运行 时 间 之 间 的 差距 在 常数 级 别 之 内 ( 希 尔 排 序 使 用 的 是 像 算 法 2.3 中 那样 
的 经 过 验证 的 递增 序列 ) ， 因 此 相对 性 能 取决 于 具体 的 实现 。 


% java SortCompare Merge Shell 100000 
For 100000 random Double values 
Merge is 1.2 times faster than Shell 


理论 上 来 说 ,还 没有 人 能 够 证 明 希 尔 排序 对 于 随机 数据 的 运行 时 间 是 线性 对 数 级 别 的 ， 因 此 存在 平 
均 情 况 下 希 尔 排序 的 性 能 的 渐进 增长 率 "更 高 的 可 能 性 。 在 最 坏 情 况 下 ， 这 种 差距 的 存在 已 经 被 证 实 
了 ， 但 这 对 实际 应 用 没有 影响 。 

问 ”为 什么 不 把 数组 aux[] 声明 为 merge 0) 方法 的 局 部 变量 ? 

答 ”这 是 为 了 避免 每 次 归并 时 ， 即 使 是 归并 很 小 的 数组 ， 都 创建 一 个 新 的 数组 。 如 果 这 么 做 ,那么 创建 

新 数组 将 成 为 归并 排序 运行 时 间 的 主要 部 分 ( 请 见 练 习 2.2.26 ) 。 更 好 的 解决 方案 是 将 aux[] 变 为 
sort(0) 方法 的 局 部 变量 , 并 将 它 作为 参数 传递 给 merge0) 方法 (为 了 简化 代码 我 们 没有 在 例子 中 这 
么 做 ， 请 见 练习 2.2.9 ) 。 

问 ” 当 数组 中 存在 重复 的 元 素 时 归并 排序 的 表现 如 何 ? 

答 如 果 所 有 的 元 素 都 相同 ， 那 么 归并 排序 的 运行 时 间 将 是 线性 的 〈 需 要 一 个 额外 的 测试 来 避免 归并 已 
经 有 序 的 数组 ) 。 但 如 果 有 多 个 不 同 的 重复 值 ， 这 样 做 的 性 能 收益 就 不 是 很 明显 了 。 例 如 ， 假 设 输 
入 数组 的 W 个 奇数 位 上 的 元 素 都 是 同一 个 值 ， 另 外 个 偶数 位 上 的 元 素 都 是 男 一 个 值 ， 此 时 算法 的 
运行 时 间 是 线性 对 数 的 〈 这样 的 数组 和 所 有 元 素 都 不 重复 的 数组 满足 了 相同 的 循环 条 件 ) ， 而 非 线 
性 的 。 283 


图 练习 


2.2.1 按照 本 节 开 头 所 示 轨 迹 的 格式 给 出 原 地 归并 的 抽象 mergeQ 〇 方法 是 如 何 将 数组 A E Q SUYE 
INOST 排 序 的 。 


@ 即 运行 时 间 的 近似 函数 。 一 一 译 者 注 
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284 


2.2.11 


2.2.12 


2.2.13 


2.2.14 


2.2.15 


2.2.16 


285 


2.2.17 


按照 算法 2.4 所 示 轨 迹 的 格式 给 出 自 顶 向 下 的 归并 排序 是 如 何 将 数组 E ASYQUESTIO 
N 排序 的 。 

] 自 底 向 上 的 归并 排序 解答 练习 2.2.2。 

是 否 当 且 仅 当 两 个 输入 的 子 数 组 都 有 序 时 原 地 归并 的 抽象 方法 才能 得 到 正确 的 结果 ?证 明 你 的 结 
论 ， 或 者 给 出 一 个 反例 。 

当 输 入 数组 的 大 小 N=39 时 , 给 出 自 顶 向 下 和 自 底 向 上 的 归并 排序 中 各 次 归并 子 数组 的 大 小 及 顺序 。 
编写 一 个 程序 来 计算 自 顶 向 下 和 自 底 向 上 的 归并 排序 访问 数组 的 准确 次 数 。 使 用 这 个 程序 将 N=1 
至 512 的 结果 绘 成 曲线 图 ， 并 将 其 和 上 限 6NlgN 比较 。 

证 明 归 并 排序 的 比较 次 数 是 单调 递增 的 ( 即 对 于 N>0，C(N+1)>C(N) ) 。 

假设 将 算法 2.4 修改 为 : 只 要 a[mid] <= a[mid+1] 就 不 调用 mergeQ 方法 ,请 证 明 用 归并 排序 
处 理 一 个 已 经 有 序 的 数组 所 需 的 比较 次 数 是 线性 级 别 的 。 
在 库 函 数 中 使 用 aux[] 这 样 的 静态 数组 是 不 妥当 的 ， 因 为 可 能 会 有 多 个 程序 同时 使 用 这 个 类 。 实 
现 一 个 不 用 静态 数组 的 Merge 类 ， 但 也 不 要 将 aux[] 变 为 mergeQ 的 局 部 变量 (请 见 本 节 的 答 
疑 部 分 ) 。 提 示 : 可 以 将 辅助 数组 作为 参数 传递 给 递归 的 sortQ 〇 方法 。 


快速 归并 。 实 现 一 个 merge0) 方法 ， 按 降序 将 a[] 的 后 半 部 分 复制 到 aux[] ， 然 后 将 其 归并 回 
a[] 中 。 这 样 就 可 以 去 掉 内 循环 中 检测 某 半 边 是 否 用 尽 的 代码 。 注 意 : 这 样 的 排序 产生 的 结果 是 
不 稳定 的 (请 见 2.5.1.8 节 ) 。 

改进 。 实 现 2.2.2 节 所 述 的 对 归并 排序 的 三 项 改进 : 加 快 小 数组 的 排序 速度 ， 检 测 数 组 是 否 已 经 
有 序 以 及 通过 在 递归 中 交换 参数 来 避免 数组 复制 。 

次 线性 的 额外 空间 。 用 大 小 M 将 数组 分 为 N/M 块 (简单 起 见 , 设 M 是 N 的 约 数 ) 。 实 现 一 个 
归并 方法 ,使 之 所 需 的 额外 空间 减少 到 max(M, NIM): Gi) 可 以 先 将 一 个 块 看 做 一 个 元 素 ， 将 块 
的 第 一 个 元 素 作为 块 的 主键 ， 用 选择 排序 将 块 排序 ; 人 遍历 数组 ， 将 第 一 块 和 第 二 块 归并 ， 完 
成 后 将 第 二 块 和 第 三 块 归并 ， 等 等 。 

平均 情况 的 下 限 。 请 证 明 任 意 基于 比较 的 排序 算法 的 预期 比较 次 数 至 少 为 ~NlgN ( 假设 输入 元 
素 的 所 有 排列 的 出 现 概率 是 均等 的 ) 。 提 示 : 比较 次 数 至 少 是 比较 树 的 外 部 路 径 的 长 度 ( 根 结 
点 到 所 有 叶子 结 点 的 路 径 长 度 之 和 ) ， 当 树 平衡 时 该 值 最 小 。 

归并 有 序 的 队列 。 编写 一 个 静态 方法 , 将 两 个 有 序 的 队列 作为 参数 , 返回 一 个 归并 后 的 有 序 队列 。 
自 底 向 上 的 有 序 队 列 归并 排序 。 用 下 面 的 方法 编写 一 个 自 底 向 上 的 归并 排序 : 给 定 入 个 元 素 ， 

创建 入 个 队列 ， 每 个 队列 包含 其 中 一 个 元 素 。 创 建 一 个 由 这 NN 个 队列 组 成 的 队列 ， 然 后 不 断 用 
练习 2.2.14 中 的 方法 将 队列 的 头 两 个 元 素 归 并 ， 并 将 结果 重新 加 入 到 队列 结尾 ， 直 到 队列 的 队 
列 只 剩 下 一 个 元 素 为 止 。 
自然 的 归并 排序 。 编 写 一 个 自 底 向 上 的 归并 排序 ， 当 需要 将 两 个 子 数组 排序 时 能 够 利用 数组 中 
已 经 有 序 的 部 分 。 首 先 找到 一 个 有 序 的 子 数组 ( 移动 指针 直到 当前 元 素 比 上 一 个 元 素 小 为 止 ) ， 
然后 再 找 出 另 一 个 并 将 它们 归并 。 根 据 数 组 大 小 和 数组 中 递增 子 数组 的 最 大 长 度 分 析 算 法 的 运 
行 时 间 。 
链表 排序 。 实 现 对 链表 的 自然 排序 ( 这 是 将 链表 排序 的 最 佳 方 法 ， 因 为 它 不 需要 额外 的 空间 ， 
且 运 行 时 间 是 线性 对 数 级 别 的 ) 。 


{= 


2.2.18 


2.2:19 


2.2.20 


2.2.21 


2.2.22 
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打 乱 链表 。 实 现 一 个 分 治 算法 ,使 用 线性 对 数 级 别 的 时 间 和 对 数 级 别 的 额外 空间 随机 打 乱 一 条 


链表 。 


倒置 ,编写 一 个 线性 对 数 级 别 的 算法 统计 给 定数 组 中 的 “倒置 "数量 ( 即 插入 排序 所 需 的 交换 次 数 ， 
请 见 2.1 节 ) 。 这 个 数量 和 Kendall tau 距离 有 关 ， 请 见 2.5 节 。 
间接 排序 。 编 写 一 个 不 改变 数组 的 归并 排序 ， 


值 是 原 数组 


P 第 i 小 的 元 素 的 位 置 。 


已 返 


回 一 个 int[] 数组 perm， 其 中 perm[i] 的 


一 式 三 份 。 给 定 三 个 列表 ， 每 个 列表 中 包含 入 个 名 字 ， 编 写 一 个 线性 对 数 级 别 的 算法 来 判定 三 


份 列表 中 是 否 
三 向 归并 排序 。 假 设 每 次 我 们 是 把 数组 分 成 三 


进行 三 向 归 


mm TU 人 .日 
图 实验 是 


2.2.23 


2.2.24 


2.2.25 


2.2.26 


2.2.27 


2.2.28 


2:2:29 


改进 。 用 实验 评估 正文 中 所 提 到 的 归 
中 实现 的 归并 和 练习 2.2.10 所 实现 的 归并 之 


到 持 入 排序 。 


改进 的 有 序 测试 。 在 实验 中 用 大 型 随机 数组 讨 


+ 含有 公共 的 名 字 ， 如 果 有 ， 返 回 第 一 个 被 找到 的 这 种 名 字 。 
个 部 分 而 不 是 两 个 部 分 并 将 它们 分 别 排序 ， 然 后 


。 这 种 算法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


排序 的 三 项 改进 (请 见 练习 2.2.11 ) 的 效果 ， 并 比较 正文 
间 的 性 能 。 根 据 经 验 给 出 应 该 在 何 时 为 子 数组 切换 


F 佑 练习 2.2.8 所 做 的 修改 的 效果 。 根据 经 验 用 NN (被 


排序 的 原始 数组 的 大 小 ) 的 函数 描述 条 件 语 句 (a[mid] < =a[mid+1] ) 成 立 ( 无论 数 组 是 否 有 序 ) 


的 平均 次 数 。 


多 向 归并 排序 。 实 现 一 个 上 向 〈 相 对 双向 而 言 ) 归并 排序 程序 。 分 析 你 的 算法 ,估计 最 佳 的 
值 并 通过 实验 验证 猜想 。 


创建 数组 。 使 用 SortCompare 粗略 比较 在 你 的 计算 机 上 在 mergeQO 中 和 在 sort() 中 创建 


aux[] 的 性 能 差异 。 
用 归并 将 大 型 随机 数组 排序 ， 根 据 经 验 用 和 N ( 某 次 归并 时 两 个 子 数组 的 长 度 之 和 ) 
的 函数 估计 当 一 个 子 数组 用 尽 时 另 一 个 子 数组 的 平均 长 度 。 

自 顶 向 下 与 自 底 向 上 。 对 于 N=10”、10'、10” 和 10"， 使 用 SortCompare 比较 自 顶 向 下 和 自 底 向 
上 的 归并 排序 的 性 能 。 
自然 的 归并 排序 。 对 于 N=10 、10' 和 10 ”， 类 型 为 Long 的 随机 主键 数组 ， 根 据 经 验 给 出 自然 的 


子 数组 长 度 。 


完整 的 64 位 


主键 ) 也 能 完成 这 道 练习 。 


归并 排序 ( 请 见 练习 2.2.16 ) 所 需要 的 遍 数 。 提 示 : 不 需要 实现 这 个 排序 ( 甚至 不 需要 生成 所 有 
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2.3 ”快速 排序 


本 方 的 主题 是 快速 排序 , 它 可 能 是 应 用 最 广泛 的 排序 算法 了 。 快速 排序 流行 的 原因 是 它 实现 简单 、 
适用 于 各 种 不 同 的 输入 数据 且 在 一 般 应 用 中 比 其 他 排序 算法 都 要 快 得 多 。 快 速 排 序 引 人 注目 的 特点 包 
括 它 是 原 地 排序 ( 只 需要 一 个 很 小 的 辅助 栈 ) ， 且 将 长 度 为 的 数组 排序 所 需 的 时 间 和 NlgN 成 正比 。 
我 们 已 经 学 习 过 的 排序 算法 都 无 法 将 这 两 个 优点 结合 起 来 。 男 外 ， 快 速 排 序 的 内 循环 比 大 多 数 排序 算 
法 都 要 短小 ， 这 意味 着 它 无 论 是 在 理论 上 还 是 在 实际 中 都 要 更 快 。 它 的 主要 缺点 是 非常 脆弱 ， 在 实现 
时 要 非常 小 心 才能 避免 低劣 的 性 能 。 已 经 有 无 数 例子 显示 许多 种 错误 都 能 致使 它 在 实际 中 的 性 能 只 
有 平方 级 别 。 幸 好 我 们 将 会 看 到 ， 由 这 些 错误 中 学 到 的 教训 也 大 大 改进 了 快速 排序 算法 ， 使 它 的 应 
用 更 加 广泛 。 


2.3.1 基本 算法 

快速 排序 是 一 种 分 治 的 排序 算法 。 它 将 一 个 数组 分 成 两 个 子 数组 ， 将 两 部 分 独立 地 排序 。 快 速 排 
序 和 归并 排序 是 互补 的 : 归并 排序 将 数组 分 成 两 个 子 数组 分 别 排序 ， 并 将 有 序 的 子 数 组 归并 以 将 整个 
数组 排序 ;而 快速 排序 将 数组 排序 的 方式 则 是 当 两 个 子 数组 都 有 序 时 整个 数组 也 就 自然 有 序 了 。 在 第 
一 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 前 ; 在 第 二 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 后 。 
在 归并 排序 中 ， 一 个 数组 被 等 分 为 两 半 ; 在 快速 排序 中 ， 切 分 ( partition ) 的 位 置 取决 于 数组 的 内 容 。 
快速 排序 的 大 致 过 程 如 图 2.3.1 所 示 。 


输入 QUICKk SS 0 RT E Xx A MP L E 
打 乱 KK A T E LE PU I MQ CX OS 
切 分 元 素 
切 分 ECAIE KL PU TM Q RX 0 Ss 
人 不 大 于 不 小 于 也 
将 左 半 部 分 排序 A C E E I 
将 右 半 部 分 排序 LMOPQRSTU X 
结果 A C E E IKLMO PQR T X 
图 2.3.1 快速 排序 示意 图 
快速 排序 的 实现 过 程 如 算法 2.5 所 示 。 
算法 2.5 ”快速 排序 
public class Quick 
{ 
public static void sort(Comparable[] a) 
StdRandom. shuffle(a); // 消除 对 输入 的 依赖 
sort(a, 0, a.length - 1); 
} 
private static void sort(Comparable[] a, int lo, int hi) 
{ 


if (hi <= 10) return; 

int j = partition(a，]1o，hi); // 切 分 (请 见 “ 快 速 排序 的 切 分 ”) 
sort(a, 10, j-1); // 将 左 半 部 分 a[10 .. j-1] 排 序 
sort(a, j+1, hi); // 将 右 半 部 分 a[j+1 .. hi] 排 序 
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快速 排序 递归 地 将 子 数组 a[1o. .hi] 排序 ， 先 用 partition0) 方法 将 a[j] 放 到 一 个 合适 位 置 ， 然 
后 再 用 递归 调用 将 其 他 位 置 的 元 素 排序 。 


j hi olz345678910112131415 
初始 值 QU I CK SOR TE XAMP LE 
随机 打 乱 KRATELEPuUTITMQCxo0oS 

0 5 15 ECAIEKLPUTMQRX0S 
0 3 4 ECAELI 
0 2 2 ACE 
0 0 1 AC 
C 
I 
pA L PU TMOQO RXO0OS 
大 小 为 1 的 子 这 9 5 MOPTQ R xX US 
数组 不 需要 7 7 8 M 0 
继续 切 分 ”、 0 
10 13 15 SQRTUX 
10 12 12 R QS 
10 11 11 Q R 
Q 
14 14 15 U Xx 
x 
结果 ACEEFE IKkLMO PQORS TUX 789 


该 方法 的 关键 在 于 切 分 ， 这 个 过 程 使 得 数组 满足 下 面 三 个 条 件 : 
口 对 于 某 个 j]，a[j] 已 经 排 定 ; 
口 a[10] 到 a[j-1] 中 的 所 有 元 素 都 不 大 于 a[j]; 
口 a[j+1] 到 a[hi] 中 的 所 有 元 素 都 不 小 于 a[j]。 

我 们 就 是 通过 递归 地 调用 切 分 来 排序 的 。 

因为 切 分 过 程 总 是 能 排 定 一 个 元 素 ， 用 归纳 法 不 难 证 明 递 归 能 够 正确 地 将 数组 排序 : 如 果 左 子 
数组 和 右 子 数组 都 是 有 序 的 ， 那 么 由 左 子 数组 (有 序 且 没有 任何 元 素 大 于 切 分 元 素 ) 、 切 分 元 素 和 
右 子 数组 (有 序 且 没有 任何 元 素 小 于 切 分 元 素 ) 组 成 的 结果 数组 也 一 定 是 有 序 的 。 算 法 2.5 就 是 实 
现 了 这 个 思路 的 一 个 递归 程序 。 它 是 一 个 随机 化 的 算法 ,因为 它 在 将 数组 排序 之 前 会 将 其 随机 打 乱 。 
我 们 这 么 做 的 原因 是 希望 能 够 预测 〈 并 依赖 ) 该 算法 的 性 能 特性 ， 之 后 我 们 会 详细 讨论 。 

要 完成 这 个 实现 ， 需 要 实现 切 分 方法 。 一 般 策略 是 先 


随意 地 取 a[1o] 作为 切 分 元 素 ,， 即 那个 将 会 被 排 定 的 元 素 ， ” 切 分 前 | 

然后 我 们 从 数组 的 左 端 开始 向 右 扫描 直到 找到 一 个 大 于 等 fo hi 
于 它 的 元 素 ， 再 从 数组 的 右 端 开始 向 左 扫描 直到 找到 一 个 。 切 分 中 国 v ] ee 

小 于 等 于 它 的 元 素 。 这 两 个 元 素 显然 是 没有 排 定 的 ， 因 此 § 

我 们 交换 它们 的 位 置 。 如 此 继续 ， 我 们 就 可 以 保证 左 指针 。 -= 一 全 一 

i 的 左 侧 元 素 都 不 大 于 切 分 元 素 ， 右 指针 j 的 右 侧 元 素 都 1 1 
不 小 于 切 分 元 素 。 当 两 个 指针 相遇 时 ， 我 们 只 需要 将 切 分 Ws ] hi 
元 素 a[1o] 和 左 子 数 组 最 右 侧 的 元 素 (a[j] ) 交换 然后 返 图 2.3.2 ”快速 排序 的 切 分 示意 图 


回 j 即 可 。 切 分 方法 的 大 致 过 程 如 图 2.3.2 所 示 。 
这 段 快 速 排序 的 实现 代码 中 还 有 几 个 细节 问题 值得 一 提 ， 因 为 它们 都 可 能 导致 实现 错误 或 是 影响 
性 能 ， 我 们 会 在 下 面 讨论 。 本 节 稍 后 我 们 会 研究 算法 的 三 个 高 层次 的 改进 。 290 
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速 排 序 的 切 分 的 实现 如 下 所 示 。 


一 一 
兴 


快速 排序 的 切 分 


private static int partition(Comparable[] a, int lo, int hi) 
{ // 将 数组 切 分 为 a[1o..i-1]，a[ri]，a[i+1l..hi] 
int i = 1o, j = hi+l; // 左右 扫描 指针 
Comparable v = a[lo]; // 切 分 元 素 
while (true) 
{ // 扫描 左右 ， 检 查 扫 描 是 否 结束 并 交换 元 素 
while (less(a[++i], v)) if (i == hi) break; 
while (less(v, a[--j])) if (j == 10) break; 
if (i >= j) break; 
exch(a, i, j); 


} 
exch(a, 10, j); // 将 v = a[j] 放 入 正确 的 位 置 
return j; // a[lo..j-1] <= a[j] <= a[j+1..hi] 达成 


} 


这 段 代 码 按照 a[10] 的 值 v 进行 切 分 。 当 指针 i 和 j 相遇 时 主 循环 退出 。 在 循环 中 ，ari] 小 于 v 时 
我 们 增 大 i，a[j] 大 于 v 时 我 们 减 小 j， 然 后 交换 a[i] 和 a[j] 来 保证 i 左 侧 的 元 素 都 不 大 于 v，j 右 侧 
的 元 素 都 不 小 于 v。 当 指针 相遇 时 交换 a[10] 和 a[j] ， 切 分 结束 ( 这 样 切 分 值 就 留 在 a[j] 中 了 ) 。 


Vv a[] 
1 i\ ol?2345678 9WULBH 
初始 值 ”0 16 
RA T ELL E PU I MQC X05 
扫描 左 、 右 部 分 “1 12 R C X05 
交换 1 12 C R 
扫描 左 、 右 部 分 3 9 A_T I M Q 
交换 3 9 I T 
扫描 左 、 右 部 分 5 6 局 tL ,EP 虱 
交换 5 6 E L 
扫描 左 、 右 部 分 6 5 E_ 上 
最 后 一 次 交换 5 E K 
结果 5 E CA I-E RK EE PU TMQ RX YO S 
a 切 分 轨迹 每 次 交换 前 后 的 数组 内 容 ) 


2.3.1.1 原 地 切 分 

如 果 使 用 一 个 辅助 数组 ， 我 们 可 以 很 容易 实现 切 分 ， 但 将 切 分 后 的 数组 复制 回去 的 开销 也 许 会 
使 我 们 得 不 偿 失 。 一 个 初级 Java 程序 员 甚至 可 能 会 将 空 数组 创建 在 递归 的 切 分 方法 中 ， 这 会 大 大 降 
低 排 序 的 速度 。 
2.3.1.2” 别 越界 

如 果 切 分 元 素 是 数组 中 最 小 或 最 大 的 那个 元 素 ， 我 们 就 要 小 心 别 让 扫描 指针 跑 出 数组 的 边界 。 
partition() 实现 可 进行 明确 的 检测 来 预防 这 种 情况 。 测 试 条 件 (j == 1o ) 是 元 余 的 ， 因 为 切 分 
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元 素 就 是 a[1o] ， 它 不 可 能 比 自己 小 。 数 组 右 端 也 有 相同 的 情况 ， 它 们 都 是 可 以 去 掉 的 〈 请 见 练习 
2.3.17) 
2.3.1.3 ”保持 随机 性 

数组 元 素 的 顺序 是 被 打 乱 过 的 。 因 为 算法 2.5 对 所 有 的 子 数 组 都 一 视 同 仁 ， 它 的 所 有 子 数组 也 
都 是 随机 排序 的 。 这 对 于 预测 算法 的 运行 时 间 很 重要 。 保 持 随 机 性 的 另 一 种 方法 是 在 partition() 
中 随机 选择 一 个 切 分 元 素 。 
2.3.1.4 终止 循环 

有 经 验 的 程序 员 都 知道 保证 循环 结束 需要 格外 小 心 ， 快 速 排序 的 切 分 循环 也 不 例外 。 正 确 地 检 
测 指针 是 否 越界 需要 一 点 技巧 ， 并 不 像 看 上 去 那么 容易 。 一 个 最 常见 的 错误 是 没有 考虑 到 数组 中 可 
能 包含 和 切 分 元 素 的 值 相同 的 其 他 元 素 。 
2.3.1.5 ”处理 切 分 元 素 值 有 重复 的 情况 

如 算法 2.5 所 示 ， 左 侧 扫 撒 最 好 是 在 遇 到 大 于 等 于 切 分 元 素 值 的 元 素 时 停 下 ， 右 侧 扫描 则 是 遇 
到 小 于 等 于 切 分 元 素 值 的 元 素 时 停 下 。 尽 管 这 样 可 能 会 不 必要 地 将 一 些 等 值 的 元 素 交 换 ， 但 在 某 些 
典型 应 用 中 ， 它 能 够 避免 算法 的 运行 时 间 变 为 平方 级 别 ( 请 见 练习 2.3.11 ) 。 稍 后 我 们 会 讨论 另 一 
种 可 以 更 好 地 处 理 含有 大 量 重 复 值 的 数组 的 方法 。 
2.3.1.6 ”终止 递归 

有 经 验 的 程序 员 还 知道 保证 递归 总 是 能 够 结束 也 是 需要 小 心 的 ， 快 速 排序 也 不 例外 。 例 如 ， 实 
现 快速 排序 时 一 个 常见 的 错误 就 是 不 能 保证 将 切 分 元 素 放 入 正确 的 位 置 ， 从 而 导致 程序 在 切 分 元 素 


正好 是 子 数组 的 最 大 或 是 最 小 元 素 时 陷入 了 无 限 的 递归 循环 之 中 。 292 


2.3.2 ”性 能 特点 

数学 上 已 经 对 快速 排序 进行 了 详尽 的 分 析 ， 因 此 我 们 能 够 精确 地 说 明 它 的 性 能 。 大 量 经 验 也 证 
明了 这 些 分 析 ， 它 们 是 算法 调 优 时 的 重要 工具 。 

快速 排序 切 分 方法 的 内 循环 会 用 一 个 递增 的 索引 将 数组 元 素 和 一 个 定 值 比较 。 这 种 简洁 性 
也 是 快速 排序 的 一 个 优点 ， 很 难 想 象 排序 算法 中 还 能 有 比 这 更 短小 的 内 循环 了 。 例 如 ， 归 并 
排序 和 希 尔 排 序 一 般 都 比 快 速 排 序 慢 ， 其 原因 就 是 它们 还 在 内 循环 中 移动 数据 。 

快速 排序 另 一 个 速度 优势 在 于 它 的 比较 次 数 很 少 。 排 序 效率 最 终 还 是 依赖 切 分 数组 的 效果 ， 而 
这 依赖 于 切 分 元 素 的 值 。 切 分 将 一 个 较 大 的 随机 数组 分 成 两 个 随机 子 数组 ， 而 实际 上 这 种 分 割 可 能 
发 生 在 数组 的 任意 位 置 ( 对 于 元 素 不 重复 的 数组 而 言 ) 。 下 面 我 们 来 分 析 这 个 算法 ， 看 看 这 种 方法 
和 理想 方法 之 间 的 差距 。 

快速 排序 的 最 好 情况 是 每 次 都 正好 能 将 数组 对 半分 。 在 这 种 情况 下 快速 排序 所 用 的 比较 次 数 正 
好 满足 分 治 递归 的 Cr=2Cw+VN 公 式 。2Cw 表示 将 两 个 子 数组 排序 的 成 本 ，N 表示 用 切 分 元 素 和 所 
有 数组 元 素 进行 比较 的 成 本 。 由 归并 排序 的 命题 F 的 证 明 可 知 ， 这 个 递归 公式 的 解 Cv-NlgN。 尽 管 
事情 并 不 总 会 这 么 顺利 ， 但 平均 而 言 切 分 元 素 都 能 落 在 数组 的 中 间 。 将 每 个 切 分 位 置 的 概率 都 考虑 
进去 只 会 使 递归 更 加 复杂 、 更 难 解决 ， 但 最 终结 果 还 是 类 似 的 。 我 们 对 快速 排序 的 信心 来 自 于 这 个 
结论 的 证 明 。 如 果 你 不 喜欢 数学 公式 ， 可 以 跳 过 这 个 证 明 ， 相 信 它 即 可 ; 如 果 你 喜欢 ， 你 会 发 现 它 
很 有 趣 。 
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命题 K。 将 长 度 为 入 的 无 重复 数组 排序 ,快速 排序 平均 需要 ~2NInN 次 比较 ( 以 及 1/6 的 交换 ) 。 
证 明 。 令 Cw 为 将 入 个 不 同 元 素 排序 平均 所 需 的 比较 次 数 。 显 然 C=Ci=0， 对 于 N>1， 由 递归 
程序 可 以 得 到 以 下 归纳 关系 : 
CoN+l+(CotCitetCwat Cy YN+t (Cyit CwattCoON 
第 一 项 是 切 分 的 成 本 (总 是 Nt1 ) ,第 二 项 是 将 左 子 数组 (长 度 可 能 是 0 到 N-1 ) 排序 的 平均 成 本 ， 
第 三 项 是 将 右 子 数组 ( 长 度 和 左 子 数组 相同 ) 排 序 的 平均 成 本 。 将 等 式 左右 两 边 乘 以 N 并 整理 各 项 得 到 
NCy MON 1)+ 2(Co FCI 十 CN 和 CvD) 
将 该 等 式 减 去 N-1 时 的 相同 等 式 可 得 : 
MOEN- ENA2C 


整理 等 式 并 将 两 边 除 以 NOV+H1) 可 得 : 
CwWCVHD=CvwV/NH2/NV+HED 


SE 


归纳 法 推导 可 得 ; 


C2N+1)(1/3+1/4+...+1/(N+1)) 
括号 内 的 量 是 曲线 2/x 下 从 3 到 入 的 离散 近似 面积 加 一 ， 积 分 得 到 Cy-2NInNN。 注 意 到 
2MnNM=1.39MgVN， 也 就 是 说 平均 比较 次 数 只 比 最 好 情况 多 39%。 
要 得 到 命题 中 的 交换 次 数 需要 一 个 类 似 〈 但 更 加 复杂 的 ) 分 析 。 


在 实际 应 用 中 ， 当 数组 元 素 可 能 重复 时 ， 精 确 的 分 析 会 相当 复杂 ， 但 不 难 证 明 即 使 存在 重复 的 
元 素 ， 平 均 比 较 次 数 也 不 会 大 于 Cy ( 在 2.3.3.3 节 中 我 们 会 改进 快速 排序 在 这 种 情况 下 的 性 能 ) 。 
尽管 快速 排序 有 很 多 优点 ， 它 的 基本 实现 仍 有 一 个 潜在 的 缺点 : 在 切 分 不 平衡 时 这 个 程序 可 能 会 
极为 低 效 。 例 如 ， 如 果 第 一 次 从 最 小 的 元 素 切 分 ， 第 二 次 从 第 二 小 的 元 素 切 分 ， 如 此 这 般 ， 每 次 调 
只 会 移 除 一 个 元 素 。 这 会 导致 一 个 大 子 数组 需要 切 分 很 多 次 。 我 们 要 在 快速 排序 前 将 数组 随机 排序 的 


主要 原因 就 是 要 避免 这 种 情况 。 它 能 够 使 产生 糟糕 的 切 分 的 可 能 性 降 到 极 低 , 我 们 就 无 需 为 此 担心 了 


命题 L。 快 速 排序 最 多 需要 约 N2 次 比较 ， 但 随机 打 乱 数组 能 够 预防 这 种 情况 。 


证 明 。 根 据 刚 才 的 证 明 ， 在 每 次 切 分 后 两 个 子 数组 之 一 总 是 空 的 情况 下 ， 比 较 次 数 为 : 
N+(N—1)+(N-2)+…+2+1=(N+1)N/2 

这 不 仅 说 明 算法 所 需 的 时 间 是 平方 级 别 的 ， 也 显示 了 算法 所 需 的 空间 是 线性 的 ， 而 这 对 于 大 数 
组 来 说 是 不 可 接受 的 。 但 是 ( 经 过 一 些 复杂 的 工作 ) 通过 扩展 对 一 般 情 况 的 分 析 我 们 可 以 得 到 
比较 次 数 的 标准 差 约 为 0.65N。 因 此 ， 随 着 入 的 增 大 ， 运行 时 间 会 趋 近 于 平均 数 ， 且 不 可 能 与 
平均 数 偏差 太 大 。 例 如 ， 对 于 一 个 有 100 万 个 元 素 的 数组 ， 由 Chebyshev 不 等 式 可 以 粗略 地 估 
计 出 运行 时 间 是 平均 所 需 时 间 的 10 倍 的 概率 小 于 0.000 01 ( 且 真 实 的 概率 还 要 小 得 多 ) 。 对 于 
大 数组 ， 运 行 时间 是 平方 级 别 的 概率 小 到 可 以 忽略 不 计 ( 请 见 练习 2.3.10 ) 。 例 如 ， 快 速 排序 
所 用 的 比较 次 数 和 插入 排序 或 者 选择 排序 一 样 多 的 概率 比 你 的 电脑 在 排序 时 被 闪电 击 中 的 概率 
都 要 小 得 多 ! 


O 
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总 的 来 说 ， 可 以 肯定 的 是 对 于 大 小 为 NN 的 数组 ,算法 2.5 的 运行 时 间 在 1.39NlgN 的 某 个 常 
数 因子 的 范围 之 内 。 归 并 排序 也 能 做 到 这 一 点 ， 但 是 快速 排序 一 般 会 更 快 ( 尽管 它 的 比较 次 数 多 
39% ) ， 因 为 它 移动 数据 的 次 数 更 少 。 这 些 保 证 都 来 自 于 数学 概率 ， 你 完全 可 以 相信 它 。 


2.3.3 ”算法 改进 


快速 排序 是 由 C.A.R Hoare 在 1960 年 发 明 的 ， 从 那 时 起 就 有 很 多 人 在 研究 并 改进 它 。 改 进 快速 
排序 总 是 那么 吸引 人 ， 发 明 更 快 的 排序 算法 就 好 像 是 计算 机 科学 界 的 “老鼠 夹子 ”， 而 快速 排序 就 是 
夹子 里 的 那 块 奶 酷 。 几 乎 从 Hoare 第 一 次 发 表 这 个 算法 开始 ， 人 们 就 不 断 地 提出 各 种 改进 方法 。 并 不 
是 所 有 的 想法 都 可 行 ， 因 为 快速 排序 的 平衡 性 已 经 非常 好 ， 改 进 所 带 来 的 提高 可 能 会 被 意外 的 副作用 
所 抵消 。 但 其 中 一 些 ， 也 是 我 们 现在 要 介绍 的 ， 非 常 有 效 。 2 

如 果 你 的 排序 代码 会 被 执行 很 多 次 或 者 会 被 用 在 大 型 数组 上 ( 特别 是 如 果 它 会 被 发 布 成 一 个 
库 函 数 ， 排 序 的 对 象 数 组 的 特性 是 未 知 的 ) ， 那 么 下 面 所 讨论 的 这 些 改进 意见 值得 你 参考 。 需 要 注 
意 的 是 ， 你 需要 通过 实验 来 确定 改进 的 效果 并 为 实现 选择 最 佳 的 参数 。 一 般 来 说 它们 能 将 性 能 提升 
20% ~ 30%。 
2.3.3.1 切换 到 插入 排序 

和 大 多 数 递归 排序 算法 一 样 ， 改 进 快速 排序 性 能 的 一 个 简单 办 法 基于 以 下 两 点 : 
口 对 于 小 数组 ， 快 速 排序 比 插 和 人 排序 慢 ; 
口 因为 递归 ， 快 速 排序 的 sort 0) 方法 在 小 数组 中 也 会 调用 自己 。 

因此 ， 在 排序 小 数组 时 应 该 切换 到 插入 排序 。 简 单 地 改动 算法 2.5 就 可 以 做 到 这 一 点 : 将 
sort() 中 的 语句 

if (hi <= 10) return; 

蔡 换 成 下 面 这 条 语句 来 对 小 数组 使 用 插入 排序 : 

if (hi <= lo + M) { Insertion.sort(a, lo, hi); return; } 

转换 参数 M 的 最 佳 值 是 和 系统 相关 的 ， 但 是 5 ~ 15 之 间 的 任意 值 在 大 多 数 情 况 下 都 能 令 人 满 
意 ( 请 见 练习 2.3.25 ) 。 
2.3.3.2 三 取样 切 分 

改进 快速 排序 性 能 的 第 二 个 办 法 是 使 用 子 数 组 的 一 小 部 分 元 素 的 中 位 数 来 切 分 数组 。 这 样 做 得 
到 的 切 分 更 好 ， 但 代价 是 需要 计算 中 位 数 。 人 们 发 现 将 取样 大 小 设 为 3 并 用 大 小 居中 的 元 素 切 分 的 
效果 最 好 (请 见 练习 2.3.18 和 练习 2.3.19 ) 。 我 们 还 可 以 将 取样 元 素 放 在 数组 末尾 作为 “哨兵 ”来 
去 掉 partition() 中 的 数组 边界 测试 。 使 用 三 取样 切 分 的 快速 排序 轨迹 如 图 2.3.3 所 示 。 
2.3.3.3 ” 类 最 优 的 排序 

实际 应 用 中 经 常会 出 现 含 有 大 量 重复 元 素 的 数组 ， 例 如 我 们 可 能 需要 将 大 量 人 员 资 料 按照 生日 
排序 ， 或 是 按照 性 别 区 分 开 来 。 在 这 些 情 况 下 ， 我 们 实现 的 快速 排序 的 性 能 尚 可 ， 但 还 有 巨大 的 改 
进 空间 。 例 如 ， 一 个 元 素 全 部 重复 的 子 数组 就 不 需要 继续 排序 了 ， 但 我 们 的 算法 还 会 继续 将 它 切 分 
为 更 小 的 数组 。 在 有 大 量 重 复元 素 的 情况 下 ， 快 速 排序 的 递归 性 会 使 元 素 全 部 重复 的 子 数组 经 常 出 
现 ， 这 就 有 很 大 的 改进 潜力 ， 将 当前 实现 的 线性 对 数 级 的 性 能 提高 到 线性 级 别 。 296 

一 个 简单 的 想法 是 将 数组 切 分 为 三 部 分 ， 分 别 对 应 小 于 、 等 于 和 大 于 切 分 元 素 的 数组 元 素 。 这 
种 切 分 实现 起 来 比 我 们 目前 使 用 的 二 分 法 更 复杂 ， 人 们 为 解决 它 想 出 了 许多 不 同 的 办 法 。 这 也 是 
E. W. Dijkstra 的 荷兰 国旗 问题 引发 的 一 道 经 典 的 编程 练习 ， 因 为 这 就 好 像 用 三 种 可 能 的 主键 值 将 数 
组 排序 一 样 ， 这 三 种 主键 值 对 应 着 停 兰 国 着 上 的 三 种 颜色 。 
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到 2.3.3 ”使 用 了 三 取样 切 分 和 插入 排序 转换 的 快速 排序 ( 另 见 彩 插 ) 

Dijkstra 的 解法 如 “三 向 切 分 的 快速 排序 ”中 极为 简洁 的 切 分 代码 所 示 。 它 从 左 到 右 遍 历数 组 
一 次 ， 维 护 一 个 指针 1t 使 得 a[1o..1t-1] 中 的 元 素 都 小 于 v， 一 个 指针 gt 使 得 a[gt+1. .hi] 中 
的 元 素 都 大 于 v, 一 个 指针 i 使 得 a[1t. .1i-1] 中 的 元 素 都 等 于 v，a[i. .gt] 中 的 元 素 都 还 未 确定 ， 
如 图 2.3.4 所 示 。 一 开始 i 和 1o 相等 ， 我 们 使 用 Comparable 接口 ( 而 非 lessQ ) 对 a[i] 进行 三 
向 比较 来 直接 处 理 以 下 情况 : 
口 a[ 让 小 于 v, 将 a[1t] 和 a[i] 交换 ,将 1t 和 i 加 一 ; 

口 a[i] 大 于 v, 将 a[gt] 和 a[i] 交换 ,将 gt 减 一 ; 
口 a[i] 等 于 v, 将 i 加 一 。 

这 些 操 作 都 会 保证 数组 元 素 不 变 且 缩小 gt-i 的 值 (这样 循 环 才 会 结束 ) 。 另 外 ， 除 非 和 切 分 

元 素 相 等 ， 其 他 元 素 都 会 被 交换 。 


2.3 快速 排序 二 189 


20 世纪 70 年 代 ， 人 快速 排序 发 布 不 久 后 这 段 代 码 切 分 前 
就 出 现 了 ， 但 它 并 没有 流行 开 来 ， 因 为 在 数组 中 重复 to 由 
元 素 不 多 的 普通 情况 下 它 比 标准 的 二 分 法 多 使 用 了 很 切 分 中 | <v Ey Sy 
多 次 交换 。90 年 代 ,， J. Bently 和 D. Mcllroy 找到 一 个 t t t 
聪明 的 方法 解决 了 这 个 问题 (请 见 练习 2.3.22) ,使 切 分 后 [< 3 二 
得 三 向 切 分 的 快速 排序 比 归并 排序 和 其 他 排序 方法 在 + 人 
包括 重复 元 素 很 多 的 实际 应 用 中 更 快 。 之 后 ，J Bently 
和 R. Sedgewick 证 明了 这 一 点 ， 我 们 会 在 下 面 讨论 。 图 2.3.4 三 向 切 分 的 示意 图 

但 我 们 已 经 证 明 过 归并 排序 是 最 优 的 。 如 何 才能 突破 它 的 下 界 ? 这 个 问题 的 答案 在 于 2.2 节 的 
命题 1 讨论 的 是 对 任意 输入 的 最 差 性 能 ， 而 我 们 目前 在 讨论 时 已 经 知道 输入 数组 的 一 些 信息 了 。 对 
于 含有 以 任意 概率 分 布 的 重复 元 素 的 输入 ， 归 并 排序 无 法 保证 最 佳 性 能 。 298 

三 向 切 分 的 快速 排序 的 实现 如 下 所 示 。 


< 


三 向 切 分 的 快速 排序 


public class Quick3way 


{ 


private static void sort(Comparable[] a, int lo, int hi) 
{ // 调用 此 方法 的 公有 方法 sort() 请 见 算法 2.5 

if (hi <= 10) return; 

int lt = 1o, i = lo+l, gt = hi; 

Comparable v = al[lo]; 

while (i <= gt) 


. 
int cmp = a[i].compareTo(v); 
1 (cmp < 0) exch(a, lt++, i++); 
else if (cmp > 0) exch(a, i, gt--); 
else 1++; 


} // 现在 a[1lo..1t-1] < vV = alt..gt] < a[gt+1..hi] 成 立 
sort(a, 1o, lt - 1); 
sort(a, gt + 1, hi); 


} vy a[] 
} lt i gt\01234567 8 91011 
0 0 11 RB W RW B R RW SBR 
这 段 排 序 代 码 的 切 分 能 够 将 和 切 0 1 11 RB R 
分 元 素 相 等 的 元 素 归 位 ， 这 样 它们 就 不 iT 羡 天 RW R 
会 被 包含 在 递归 调用 处 理 的 子 数组 之 中 1 2 10 R R B 
了 。 对 于 存在 大 量 重复 元 素 的 数组 ， 这 1 3 10 R W B 
种 方法 比 标准 的 快速 排序 的 效率 高 得 多 1 3 9 kK B 
(请 见 正文 ) 。 2 
i . ， 2 5 9 R Ww W 
三 向 分 切 的 快速 排序 的 可 视 轨 迹 2 站 | R 
如 图 2.3.5 所 示 。 2 5 7 R R R 
2 6 7 R B R 
3 7 7 R R 
3 8 7 R R Ww 
3 8 7 BBB RRRRRWW WW 


三 向 切 分 的 轨迹 《每 次 迭代 循环 之 后 的 数组 内 容 ) 299 
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罗 2.3.5 三 向 切 分 的 快速 排序 的 可 视 轨迹 ( 另 见 彩 插 ) 


例如 ,对 于 只 有 奉 干 不 同 主键 的 随机 数组 ， 归 并 排序 的 时 间 复 杂 度 是 线性 对 数 的 ， 而 三 向 切 分 
快速 排序 则 是 线性 的 。 从 上 面 的 可 视 轨 迹 就 可 以 看 出 ， 主 键 值 数 量 的 N 倍 是 运行 时 间 的 一 个 保守 的 
上 界 。 
这 些 准 确 的 结论 来 自 于 对 主键 概率 分 布 的 分 析 。 给 定 包含 个 不 同 值 的 入 个 主键 , 对 于 从 1 到 
的 每 个 1， 定义 记 为 第 i 个 主键 值 出 现 的 次 数 ，p; 为 WN， 即 为 随机 抽取 一 个 数组 元 素 时 第 i 个 主 
键 值 出 现 的 概率 。 那 么 所 有 主键 的 香农 信息 量 ( 对 信息 含量 的 一 种 标准 的 度量 方法 ) 可 以 定义 为 : 


H=-(pilgpit pslgpst…+ pigpn) 
给 定 任意 一 个 待 排序 的 数组 ， 通 过 统计 每 个 主键 值 出 现 的 频率 就 可 以 计算 出 它 包 含 的 信息 量 。 
值得 一 提 的 是 ， 可 以 通过 这 个 信息 量 得 出 三 向 切 分 的 快速 排序 所 需要 的 比较 次 数 的 上 下 界 。 


命题 M。 不 存在 任何 基于 比较 的 排序 算法 能 够 保证 在 NH-N 次 比较 之 内 将 W 个 元 素 排序 ， 其 中 


三 


玖 为 由 主键 值 出 现 频率 定义 的 香农 信息 量 。 


300 略 证 。 将 2.2 节 的 命题 工 中 下 界 的 证 明 ( 相对 简单 地 ) 一 般 化 即 可 证 明 该 结论 。 


命题 N。 对 于 大 小 为 W 的 数组 ， 三 向 切 分 的 快速 排序 需要 ~(2In2)NH 次 比较 。 其 中 万 为 由 主键 
值 出 现 频率 定义 的 香农 信息 量 。 
略 证 。 将 命题 K 中 快速 排序 的 普通 情况 的 分 析 ( 相对 困难 地 ) 通用 化 即 可 证 明 该 结论 。 在 所 有 
主键 都 不 重复 的 情况 下 ， 它 比 最 优 解 所 需 比 较 多 39% (但 仍 在 常数 因子 的 范围 之 内 ) 。 


请 注意 ， 当 所 有 的 主键 值 均 不 重复 时 有 FH=lgN (所 有 主键 的 概率 均 为 WN) ， 这 和 2.2 节 的 命 
题 I 以 及 命题 玉 是 一 致 的 。 三 向 切 分 的 最 坏 情况 正 是 所 有 主键 均 不 相同 。 当 存在 重复 主键 时 ， 它 的 
性 能 就 会 比 归并 排序 好 得 多 。 更 重要 的 是 ， 这 两 个 性 质 一 起 说 明了 三 向 切 分 是 信息 量 最 优 的 ， 即 对 
于 任意 分 布 的 输入 ， 最 优 的 基于 比较 的 算法 平均 所 需 的 比较 次 数 和 三 向 切 分 的 快速 排序 平均 所 需 的 
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比较 次 数 相互 处 于 常数 因子 范围 之 内 。 

对 于 标准 的 快速 排序 ， 随 着 数组 规模 的 增 大 其 运行 时 间 会 趋 于 平均 运行 时 间 ， 大 幅 偏 离 的 情况 
非常 罕见 ， 因 此 可 以 肯定 三 向 切 分 的 快速 排序 的 运行 时 间 和 输入 的 信息 量 的 入 信和 是 成 正比 的 。 在 实 
际 应 用 中 这 个 性 质 很 重要 ， 因 为 对 于 包含 大 量 重 复元 素 的 数组 ， 它 将 排序 时 间 从 线性 对 数 级 降低 到 
了 线性 级 别 。 这 和 元 素 的 排列 顺序 没有 关系 ， 因 为 算法 会 在 排序 之 前 将 其 打 乱 以 避免 最 坏 情况 。 元 
素 的 概率 分 布 决定 了 信息 量 的 大 小 ， 没 有 基于 比较 的 排序 算法 能 够 用 少 于 信息 量 决定 的 比较 次 数 完 
成 排序 。 这 种 对 重复 元 素 的 适应 性 使 得 三 向 切 分 的 快速 排序 成 为 排序 库 函 数 的 最 佳 算法 选择 一 一 需 
要 将 包含 大 量 重复 元 素 的 数组 排序 的 用 例 很 常见 。 

经 过 精心 调 优 的 快速 排序 在 绝 大 多 数 计算 机 上 的 绝 大 多 数 应 用 中 都 会 比 其 他 基于 比较 的 排序 算 
法 更 快 。 快 速 排序 在 今天 的 计算 机 业界 中 的 广泛 应 用 正 是 因为 我 们 讨论 过 的 数学 模型 说 明了 它 在 实 
际 应 用 中 比 其 他 方法 的 性 能 更 好 ， 而 近 几 十 年 的 大 量 实验 和 经 验 也 证 明了 这 个 结论 。 

在 第 5 章 中 我 们 会 发 现 ， 这 些 并 不 是 快速 排序 发 展 的 终点 ， 因 为 有 人 研究 出 了 完全 不 需要 比较 
的 排序 算法 ! 但 快速 排序 的 另 一 个 版 本 在 那个 环境 下 仍然 是 最 棒 的 ， 和 这 里 一 样 。 


问 有 没有 将 数组 平分 的 办 法 ， 而 不 是 根据 切 分 元 素 的 最 后 位 置 来 切 分 数组 ? 

答 这 个 问题 困扰 了 专家 们 十 多 年 。 这 和 用 数组 的 中 位 数 切 分 的 想法 类 似 。 我 们 在 2.5.3.4 节 中 讨论 了 寻 
找 中 位 数 的 问题 。 在 线性 时 间 内 找到 是 可 能 的 ， 但 用 现 有 的 算法 〈 基 于 快速 排序 的 切 分 ) ， 这 么 做 
的 代价 远 远 超过 将 数组 平分 而 节省 的 39%。 

问 ”随机 地 将 数组 打 乱 似乎 占 了 排序 用 时 的 一 大 部 分 ， 这 人 么 做 值得 吗 ? 

答 值得 。 这 能 够 防止 出 现 最 坏 情况 并 使 运行 时 间 可 以 预计 。Hoare 在 1960 年 提出 这 个 算法 的 时 候 就 推 
荐 了 这 种 方法 一 一 它 是 一 种 ( 也 是 第 一 批 ) 偏爱 随机 性 的 算法 。 

问 为 什么 都 将 注意 力 放 在 重复 元 素 上 ? 

答 ” 这 个 问题 直接 影响 到 实际 应 用 中 的 性 能 。 它 曾 被 忽略 了 数 十 年 ， 结 果 是 一 些 老 的 实现 对 含有 大 量 
复元 素 的 数组 排序 时 用 时 超过 平方 级 别 ， 这 在 实际 应 用 中 肯定 出 现 过 。 像 算法 2.5 等 较 好 的 实现 对 
于 这 种 数组 的 复杂 度 是 线性 对 数 级 别 的 ， 但 在 很 多 情况 下 ， 如 本 闻 最 后 将 其 改进 为 信息 量 最 佳 的 线 
性 级 别 是 很 值得 的 。 
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2.3.1 按照 partition() 方 法 的 轨迹 的 格式 给 出 该 方法 是 如 何 切 分 数组 EA SYQUESTION 的 。 

2.3.2 ”按照 本 节 中 快速 排序 所 示 轨 迹 的 格式 给 出 快速 排序 是 如 何 将 数组 EA SYQUESTION 排 
序 的 ( 出 于 练习 的 目的 ， 可 以 忽略 开头 打 乱 数组 的 部 分 ) 。 

2.3.3 ”对 于 长 度 为 NN 的 数组 ， 在 Quick.sort() 执行 时 ， 其 最 大 的 元 素 最 多 会 被 交换 多 少 次 ? 

2.3.4 ”假如 跳 过 开头 打 乱 数组 的 操作 ， 给 出 六 个 含有 10 个 元 素 的 数组 ， 使 得 Quick.sort() 所 需 的 比较 
次 数 达 到 最 坏 情 况 。 

2.3.5 ”给 出 一 段 代码 将 已 知 只 有 两 种 主键 值 的 数组 排序 。 

2.3.6 编写 一 段 代 码 来 计算 C, 的 准确 值 ， 在 N=100、1000 和 10 000 的 情况 下 比较 准确 值 和 估计 值 
2NInN 的 差距 。 
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2.3.16 


2.3.17 


2.3.18 


2.3.19 
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2.3.20 


在 使 用 快速 排序 将 N 个 不 重复 的 元 素 排序 时 ， 计 算 大 小 为 0、1 和 2 的 子 数组 的 数量 。 如 果 你 喜 
欢 数 学 ， 请 推导 ; 如 果 你 不 喜欢 ， 请 做 一 些 实验 并 提出 猜想 。 

Quick.sort() 在 处 理 入 个 全 部 重复 的 元 素 时 大 约 需 要 多 少 次 比较 ? 

请 说 明 Quick.sortQ 在 处 理 只 有 两 种 主键 值 的 数组 时 的 行为 ， 以 及 在 处 理 只 有 三 种 主键 值 的 数 
组 时 的 行为 。 

Chebyshev 不 等 式 表 明 , 一 个 随机 变量 的 标准 差距 离 均值 大 于 大 的 概率 小 于 1/ 尼 。 对 于 N=100 万 ， 
日 Chebyshev 不 等 式 计算 快速 排序 所 使 用 的 比较 次 数 大 于 1000 亿 次 的 概率 (0.1N? ) 。 

假如 在 遇 到 和 切 分 元 素 重 复 的 元 素 时 我 们 继续 扫描 数组 而 不 是 停 下 来 ,证 明 使 用 这 种 方法 的 快速 
排序 在 处 理 只 有 若干 种 元 素 值 的 数组 时 的 运行 时 间 是 平方 级 别 的 。 

按照 代码 所 示 轨 迹 的 格式 给 出 信息 量 最 佳 的 快速 排序 第 一 次 是 如 何 切 分 数组 B AB ABABA 
CADABRA 的 。 
在 最 佳 、 平 均 和 最 坏 情况 下 ,快速 排序 的 递归 深度 分 别 是 多 少 ? 这 决定 了 系统 为 了 追踪 递归 调 
用 所 需 的 栈 的 大 小 。 在 最 坏 情况 下 保证 递归 深度 为 数组 大 小 的 对 数 级 的 方法 请 见 练习 2.3.20。 
正明 在 用 快速 排序 处 理 大 小 为 N 的 不 重复 数组 时 ， 比 较 第 i 大 和 第 j 大 元素 的 概率 为 ZG-i)， 并 


] 该 结论 证 明 命 题 K。 


螺丝 和 螺 悼 。(G. JE. Rawlins) 假设 有 V 个 螺丝 和 N 个 螺 帽 混在 一 堆 ， 你 需要 快速 将 它们 配对 。 
一 个 螺丝 只 会 匹配 一 个 螺 帽 ， 一 个 螺 帽 也 只 会 匹配 一 个 螺丝 。 你 可 以 试 着 把 一 个 螺丝 和 一 个 螺 
骨 拧 在 一 起 看 看 谁 大 了 ， 但 不 能 直接 比较 两 个 螺丝 或 者 两 个 螺 帽 。 给 出 一 个 解决 这 个 问题 的 有 
效 方法 。 
最 佳 情况 ”编写 一 段 程序 来 生成 使 算法 2.5 中 的 sort 0) 方法 表现 最 佳 的 数组 ( 无 重复 元 素 ) : 
数组 大 小 为 V 日 不 包含 重复 元 素 ， 每 次 切 分 后 两 个 子 数组 的 大 小 最 多 差 1 ( 子 数组 的 大 小 与 含 
有 NN 个 相同 元 素 的 数组 的 切 分 情况 相同 )。( 对 于 这 道 练习 , 我 们 不 需要 在 排序 开始 时 打 乱 数组 。) 
以 下 练习 描述 了 快速 排序 的 几 个 变 体 。 它 们 每 个 都 需要 分 别 实现 ， 但 你 也 很 自然 地 希望 使 用 
SortCompare 进行 实验 来 评估 每 种 改动 的 效果 。 

哨兵 。 修 改 算法 2.5， 去 掉 内 循环 while 中 的 边界 检查 。 由 于 切 分 元 素 本 身 就 是 一 个 哨兵 (v 不 
可 能 小 于 a[1o] ) ， 左 侧 边 界 的 检查 是 多 余 的 。 要 去 掉 男 一 个 检查 ， 可 以 在 打 乱 数组 后 将 数组 的 
最 大 元 素 放 在 a[length-1] 中 。 该 元 素 永 远 不 会 移动 ( 除非 和 相等 的 元 素 交换 ) ， 可 以 在 所 有 
包含 它 的 子 数组 中 成 为 哨兵 。 注 意 : 在 处 理 内 部 子 数组 时 ， 右 子 数组 中 最 左 侧 的 元 素 可 以 作为 
左 子 数组 右边 界 的 哨兵 。 

三 取样 切 分 。 为 快速 排序 实现 正文 所 述 的 三 取样 切 分 (参见 2.3.3.2 节 ) 。 运 行 双 倍 测试 来 确认 
这 项 改动 的 效果 。 

五 取样 切 分 。 实 现 一 种 基于 随机 抽取 子 数组 中 5 个 元 素 并 取 中 位 数 进行 切 分 的 快速 排序 。 将 取 
样 元 素 放 在 数组 的 一 侧 以 保证 只 有 中 位 数 元 素 参 与 了 切 分 。 运 行 双 倍 测试 来 确定 这 项 改动 的 效 
果 ， 并 和 标准 的 快速 排序 以 及 三 取样 切 分 的 快速 排序 (请 见 上 一 道 练习 ) 进行 比较 。 附 加 题 : 
找到 一 种 对 于 任意 输入 都 只 需要 少 于 7 次 比较 的 五 取样 算法 。 

非 递 归 的 快速 排序 。 实 现 一 个 非 递归 的 快速 排序 ， 使 用 一 个 循环 来 将 弹出 栈 的 子 数 组 切 分 并 将 结 
果子 数组 重新 压 和 人 栈 。 注 意 : 先 将 较 大 的 子 数 组 压 人 栈 , 这 样 就 可 以 保证 栈 最 多 只 会 有 lgN 个 元 素 。 
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2.3.21 将 重复 元 素 排序 的 比较 次 数 的 下 界 。 完 成 命题 M 的 证 明 的 第 一 部 分 。 参 考 命题 I 的 证 明 并 注意 
ed Kk 个 主键 值 时 所 有 元 素 存在 NWA1p1…fhl! 种 不 同 的 排列 , 其 中 第 i 个 主键 值 出 现 的 频率 为 A( 即 
， 按 照 命题 M 的 记 法 ) ， 且 fi+…+f=N。 


2.3.22 向 切 分 。 (J. Bently，D. Mcllroy ) 用 将 排序 前 | 
重复 元 素 放置 于 子 数组 两 端的 方式 实现 一 个 信息 Te i 
量 最 优 的 排序 算法 。 使 用 两 个 索引 p 和 q， 使 得 ee er Se 2 
a[1o..p-1] 和 a[q+1..hi] 的 元 素 都 和 a[1o] t t t 1 t t 
A 则 四 了 lo p 1 J q hi 
相等 。 使 用 另外 两 个 索引 i 和 j, 使 得 a[p. .1i-1] 
小 于 a[1o],a[j+i..9] 大 于 a[1o]。 在 内 循环 天 站 一 一 — 
中 加 入 代码 ， 在 a[i] 和 v 相当 时 将 其 与 a[p] 交 9 j 和 hi 
换 (并 将 p 加 1), 在 a[j] 和 v 相等 昌 a[i] 和 图 2.3.6 ”Bently-Mcllroy 三 向 切 分 


a[j] 尚未 和 v 进行 比较 之 前 将 其 与 a[q] 交换 。 
添加 在 切 分 循环 结束 后 将 和 v 相等 的 元 素 交 换 到 正确 位 置 的 代码 ， 如 图 2.3.6 所 示 。 请 注意 : 这 
里 实现 的 代码 和 正文 中 给 出 的 代码 是 等 价 的 ， 因为 这 里 额外 的 交换 用 于 和 切 分 元 素 相等 的 元 素 ， 
而 正文 中 的 代码 将 额外 的 交换 用 于 和 切 分 元 素 不 等 的 元 素 。 
2.3.23 Java 的 排序 库 函 数 。 在 练习 2.3.22 的 代码 中 使 用 Tukey’s ninther 方法 来 找 出 切 分 元 素 一 一 选择 三 
组 ， 每 组 三 个 元 素 ， 分 别 取 三 组 元 素 的 中 位 数 ， 然 后 取 三 个 中 位 数 的 中 位 数 作为 切 分 元 素 ， 且 
在 排序 小 数组 时 切换 到 插入 排序 。 
2.3.24 取样 排序 。 ( W. Frazer，A. McKellar ) 实现 一 个 快速 排序 ， 取 样 大 小 为 21。 首先 将 取样 得 到 
的 元 素 排序 ， 然 后 在 递归 函数 中 使 用 样品 的 中 位 数 切 分 。 分 为 两 部 分 的 其 余 样品 元 素 无 需 再 次 
排序 并 可 以 分 别 应 用 于 原 数组 的 两 个 子 数组 。 这 种 算法 被 称 为 取样 排序 。 306 


图 实验 是 


2.3.25 ”切换 到 插入 排序 。 实 现 一 个 快速 排序 ， 在 子 数组 元 素 少 于 M 时 切换 到 插入 排序 。 用 快速 排序 处 

理 大 小 入 分 别 为 10、10*、10” 和 10' 的 随机 数组 ,根据 Ge asl tiie 
度 最 快 的 MM 值 。 将 MM 从 0 变化 到 30 的 每 个 值 所 得 到 的 平均 运行 时 间 绘 成 曲线 。 注 意 : 你 需 
为 算法 2.2 添加 一 个 需要 三 个 参数 的 sort(0) 方法 以 使 Insertion.sort(a，1o，hi) 将 
a[1o. .hi] 排序 。 

2.3.26 子 数 组 的 大 小 。 编 写 一 个 程序 ， 在 快速 排序 处 理 大 小 为 的 数组 的 过 程 中 ， 当 子 数组 的 大 小 小 
于 M 时， 排序 方法 需要 切换 为 插入 排序 。 将 子 数 组 的 大 小 绘制 成 直方 图 。 用 Ne10，WE10、20 
和 50 测试 你 的 程序 。 

2.3.27 忽略 小 数组 。 用 实验 对 比 以 下 处 理 小 数组 的 方法 和 练习 2.3.25 的 处 理 方法 的 效果 : 在 快速 排序 
中 直接 忽略 小 数组 ， 仅 在 快速 排序 结束 后 运行 一 次 插 和 排序。 注意: 可 以 通过 这 些 实验 估计 出 

外 脑 的 缓存 大 小 ， 因 为 当 数组 大 小 超出 缓存 时 这 种 方法 的 性 能 可 能 会 下 降 。 

2.3.28 递归 深度 。 用 经 验 性 的 研究 估计 切换 阀 值 为 W 的 快速 排序 在 将 大 小 为 N 的 不 重复 数组 排序 时 的 

平均 递归 深度 ， 其 中 M=10、20 和 50，N=10、10 、10 和 10'。 

2.3.29 ”随机 化 。 用 经 验 性 的 研究 对 比 随机 选择 切 分 元 素 和 正文 所 述 的 一 开始 就 将 数组 随机 化 这 两 种 策 
略 的 效果 。 在 子 数组 大 小 为 M 时 进行 切换 ， 将 大 小 为 N 的 不 重复 数组 排序 ， 其 中 M=10、20 和 
50, N=10*、10*、10” 和 10*。 
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2.3.30 极端 情况 。 用 初始 随机 化 和 非 初 始 随机 化 的 快速 排序 测试 练习 2.1.35 和 练习 2.1.36 中 描述 的 大 


2.3.31 


型 非 随机 数组 。 在 将 这 些 大 数组 排序 时 ， 乱 序 对 快速 排序 的 性 能 有 何 影响 ? 
运行 时 间 直 方 图 。 编 写 一 个 程序 ， 接 受命 令 行 参数 W 和 了， 用 快速 排序 对 大 小 为 N 的 随机 浮 点 
数 数组 进行 了 次 排序 ， 并 将 所 有 运行 时 间 绘 制 成 直方 图 。 令 NE10 、10 、10 和 106, 为 了 使 曲 
线 更 平滑 ,， 了 人 值 越 大 越 好 。 这 个 练习 最 关键 的 地 方 在 于 找到 适当 的 比例 绘制 出 实验 结果 。 
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2.4 优先 队列 


许多 应 用 程序 都 需要 处 理 有 序 的 元 素 ， 但 不 一 定 要 求 它们 全 部 有 序 ， 或 是 不 一 定 要 一 次 就 将 它 
们 排序 。 很 多 情况 下 我 们 会 收集 一 些 元 素 ， 处 理 当 前 键 值 最 大 的 元 素 ， 然 后 再 收集 更 多 的 元 素 ， 再 
处 理 当 前 键 值 最 大 的 元 素 ， 如 此 这 般 。 例 如 ， 你 可 能 有 一 台 能 够 同时 运行 多 个 应 用 程序 的 电脑 〈 或 
者 手机 ) 。 这 是 通过 为 每 个 应 用 程序 的 事件 分 配 一 个 优先 级 ， 并 总 是 处 理 下 一 个 优先 级 最 高 的 事件 
来 实现 的 。 例 如 ， 绝 大 多 数 手 机 分 配给 来 电 的 优先 级 都 会 比 游戏 程序 的 高 。 

在 这 种 情况 下 ， 一 个 合适 的 数据 结构 应 该 支持 两 种 操作 删除 最 大 元 素 和 插入 元 素 。 这 种 数据 
类 型 叫做 优先 队列 。 优 先 队列 的 使 用 和 队列 ( 删除 最 老 的 元 素 ) 以 及 栈 ( 删除 最 新 的 元 素 ) 类 似 ， 
但 高 效 地 实现 它 则 更 有 挑战 性 。 

在 本 节 中 ， 简 单 地 讨论 优先 队列 的 基本 表现 形式 ( 其 一 或 者 两 种 操作 都 能 在 线性 时 间 内 完成 ) 
之 后 ,我 们 会 学 习 基 于 二 又 堆 数据 结构 的 一 种 优先 队列 的 经 典 实现 方法 ， 用 数组 保存 元 素 并 按照 一 
定 条 件 排序 ， 以 实现 高 效 地 ( 对 数 级 别 的 ) 删除 最 大 元 素 和 插入 元 素 操作 。 

优先 队列 的 一 些 重要 的 应 用 场景 包括 模拟 系统 ， 其 中 事件 的 键 即 为 发 生 的 时 间 ， 而 系统 需要 按 
照 时 间 顺 序 处 理 所 有 事件 ; 任务 调度 ， 其 中 键 值 对 应 的 优先 级 决定 了 应 该 首先 执行 哪些 任务 ; 数值 
计算 ， 键 值 代表 计算 错误 ， 而 我 们 需要 按照 键 值 指定 的 顺序 来 修正 它们 。 在 第 6 章 中 我 们 会 学 习 一 
个 具体 的 例子 ， 展 示 优 先 队列 在 粒子 碰撞 模拟 中 的 应 用 。 

通过 搬入 一 列 元 素 然后 一 个 个 地 删 掉 其 中 最 小 的 元 素 ， 我 们 可 以 用 优先 队列 实现 排序 算法 。 一 
种 名 为 扒 排 序 的 重要 排序 算法 也 来 自 于 基于 堆 的 优先 队列 的 实现 。 稍 后 在 本 书 中 我 们 会 学 习 如 何 
优先 队列 构造 其 他 算法 。 在 第 4 章 中 我 们 会 看 到 优先 队列 如 何 恰到好处 地 抽象 若干 重要 的 图 搜索 算 
法 ; 在 第 5 章 中 ,我们 将 使 用 本 节 所 示 的 方法 开发 出 一 种 数据 压缩 算法 。 这 些 只 是 优先 队列 作为 算 
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2.4.1 API 


优先 队列 是 一 种 抽象 数据 类 型 (请 见 1.2 节 ) ， 它 表示 了 一 组 值 和 对 这 些 值 的 操作 ， 它 的 抽 
象 层 使 我 们 能 够 方便 地 将 应 用 程序 ( 用例 ) 和 我 们 将 在 本 节 中 学 习 的 各 种 具体 实现 隔离 开 来 。 和 
1.2 节 一 样 ， 我 们 会 详细 定义 一 组 应 用 程序 编程 接口 (API ) 来 为 数据 结构 的 用 例 提供 足够 的 信息 
(参见 表 2.4.1 ) 。 优 先 队 列 最 重要 的 操作 就 是 删除 最 大 元 素 和 播 入 元 素 ， 所 以 我 们 会 把 精力 集中 
在 它们 身上 。 删 除 最 大 元 素 的 方法 名 为 de1Max() ， 搬 和 元素 的 方法 名 为 insert()。 按 照 惯例 ， 
我 们 只 会 通过 辅助 函数 less( 来 比较 两 个 元 素 ， 和 排序 算法 一 样 。 如 果 人 允许 重复 元 素 ， 最 大 表示 
的 是 所 有 最 大 元 素 之 一 。 为 了 将 API 定义 完整 ， 我 们 还 需要 加 入 构造 函数 (和 我 们 在 栈 以 及 队列 
中 使 用 的 类 似 ) 和 一 个 空 队列 测试 方法 。 为 了 保证 灵活 性 ， 我 们 在 实现 中 使 用 了 泛 型 ， 将 实现 了 
Comparable 接口 的 数据 的 类 型 作为 参数 Key。 这 使 得 我 们 可 以 不 必 再 区 别 元 素 和 元 素 的 键 ， 对 数 
据 类 型 和 算法 的 描述 也 将 更 加 清晰 和 简洁 。 例如 , 我 们 将 用 “最 大 元 素 ” 代替“ 最 大 键 值 ”或 是 “ 键 
值 最 大 的 元 素 ”。 


表 2.4.1 泛 型 优先 队列 的 API 
public class MaxPQ<Key extends Comparable<Key>> 
MaxPQO) 创建 一 个 优先 队列 
MaxPQCint max) 创建 一 个 初始 容量 为 max 的 优先 队列 
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( 续 ) 
public class MaxPQ<Key extends Comparable<Key>> 
MaxPQCKey[] a) 用 a[] 中 的 元 素 创建 一 个 优先 队列 
void insert(Key v) 向 优先 队列 中 插入 一 个 元 素 
Key max() 返回 最 大 元 素 
Key delMax() 删除 并 返回 最 大 元 素 
boolean isEmpty() 返回 队列 是 否 为 空 
309 int size() 返回 优先 队列 中 的 元 素 个 数 


为 了 用 例 代码 的 方便 ，API 包含 的 三 个 构造 函数 使 得 用 例 可 以 构造 指定 大 小 的 优先 队列 (还 可 
以 用 给 定 的 一 个 数组 将 其 初始 化 ) 。 为 了 使 用 例 代码 更 加 清晰 ， 我 们 会 在 适当 的 地 方 使 用 男 一 个 类 
MinPQ。 它 和 MaxPQ 类似, 只 是 含有 一 个 de1Min() 方法 来 删除 并 返回 队列 中 键 值 最 小 的 那个 元 素 。 
MaxPQ 的 任意 实现 都 能 很 容易 地 转化 为 MinPQ 的 实现 ， 反 之 亦 然 ， 只 需要 改变 一 下 lessQ 比较 的 
方向 即 可 。 
优先 队列 的 调用 示例 

为 了 展示 优先 队列 的 抽象 模型 的 价值 ， 考 虑 以 下 问题 : 输入 W 个 字符 串 ， 每 个 字符 串 都 对 应 
着 一 个 整数 ， 你 的 任务 就 是 从 中 找 出 最 大 的 (或 是 最 小 的 ) M 个 整数 (及 其 关联 的 字符 串 ) 。 这 
些 输入 可 能 是 金融 事务 ， 你 需要 从 中 找 出 最 大 的 那些 ;或 是 农产品 中 的 杀 虫 剂 含量 ， 这 时 你 需要 从 
! 找 出 最 小 的 那些 ; 或 是 服务 请 求 、 科 学 实验 的 结果 ， 或 是 其 他 应 用 。 在 某 些 应 用 场景 中 ， 输 入 量 
可 能 非常 巨大 ， 甚 至 可 以 认为 输入 是 无 限 的 。 解 决 这 个 问题 的 一 种 方法 是 将 输入 排序 然后 从 中 找 
出 M 个 最 大 的 元 素 ， 但 我 们 已 经 说 明 输 入 将 会 非常 庞大 。 另 一 种 方法 是 将 每 个 新 的 输入 和 已 知 的 
M 个 最 大 元 素 比较 , 但 除非 M 较 小 ， 否 则 这 种 比较 的 代价 会 非常 高 昂 。 只 要 我 们 能 够 高 效 地 实现 
insert() 和 delMinG) ， 下 面 的 优先 队列 用 例 中 调用 了 MinPQ 的 TopM 就 能 使 用 优先 队列 解决 这 个 
问题 ， 这 就 是 本 节 中 我 们 的 目标 。 在 现代 基础 性 计算 环境 中 超大 的 输入 V 非常 常见 ， 这 些 实现 使 我 
们 能 够 解决 以 前 缺乏 足够 资源 去 解决 的 问题 ， 如 表 2.4.2 所 示 。 


表 2.4.2 从 NN 个 输入 中 找到 最 大 的 M 个 元 素 所 需 成 本 


全 出 增长 的 数量 级 
时 间 全 。 他 
排序 算法 的 用 例 NlogN N 
调用 初级 实现 的 优先 队列 NM M 
调用 基于 堆 实 现 的 优先 队列 NlogM M 
一 个 优先 队列 的 用 例 


public class TopM 
{ 
public static void main(String[] args) 
{ // 打印 输入 流 中 最 大 的 M 行 
int M = Integer.parseInt(args[0]); 
MinPQ<Transaction> pq = new MinPQ<Transaction>(M+1); 
while (StdIn.hasNextLine(O)) 
{ // 为 下 一 行 输入 创建 一 个 元 素 并 放 入 优先 队列 中 
pq.insert(new Transaction(StdIn.readLine())); 
if (pq.size() > M) 
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pq.delMin() ; // 如 果 优 先 队 列 中 存在 M+1 个 元 素 则 删除 其 中 最 小 的 元 素 
了 // 最 大 的 M 个 元 素 都 在 优先 队列 中 


Stack<Transaction> stack = new Stack<Transaction>(); 
while (!pq.isEmptyO)) stack.push(pq.delMin()); 
for (Transaction t : stack) Stdout.printlnCt) ; 


} 

从 命令 行 输入 一 个 整数 M， 从 输入 流 获得 一 系列 字符 串 ， 输 入 流 的 每 一 行 表 示 一 个 交易 。 这 有 段 代 
码 调用 了 MinPQ 并 会 打印 数字 最 大 的 M 行 。 它 用 到 了 Transaction 类 (请 见 表 1.2.6、 练 习 1.2.19 和 
练习 2.1.21 ) ,构造 了 一 个 用 数字 作为 键 的 优先 队列 。 当 优先 队列 的 大 小 超过 M 时 就 删 掉 其 中 最 小 的 元 
素 。 处 理 完 所 有 交易 ， 优 先 队 列 中 存放 着 以 降序 排列 的 最 大 的 M 个 交易 ， 然 后 这 段 代 码 将 它们 放 和 到 
一 个 栈 中 ， 遍 历 这 个 栈 以 颠倒 它们 的 顺序 ， 从 而 将 它们 按 降 序 打 印 出 来 。 


% more tinyBatch.txt 

Turing 6/17/1990 644.08 
vonNeumann 3/26/2002 4121.85 
Dijkstra 8/22/2007 2678.40 
vonNeumann 1/11/1999 4409.74 
Dijkstra 11/18/1995 837.42 


Hoare TD 人 95 e3229827 

vonNeumann 2/12/1994 4732.35 

Hoare 8/18/1992 4381.21 

Turing 1/11/2002 66.10 

Thompson 2/27/2000 4747.08 

Turing 2/11/1991 2156.86 % java TopM 5 < tinyBatch.txt 

Hoare S/O003 L025870, Thompson 2/27/2000 4747.08 
vonNeumann 10/13/1993 2520.97 vonNeumann 2/12/1994 4732.35 
Dijkstra 9/10/2000 708.95 vonNeumann 1/11/1999 4409.74 
uling TOWI2/N199309 3532036 Hoare 8/18/1992 4381.21 
Hoare 2/10/2005 4050.20 vonNeumann 3/26/2002 4121.85 
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我 们 在 第 1 章 中 讨论 过 的 4 种 基础 数据 结构 是 实现 优先 队列 的 起 点 。 我 们 可 以 使 用 有 序 或 无 序 
的 数组 或 链表 。 在 队列 较 小 时 ， 大 量 使 用 两 种 主要 操作 之 一 时 ， 或 是 所 操作 元 素 的 顺序 已 知 时 ， 它 
们 十 分 有 用 。 因 为 这 些 实现 相对 简单 ， 我 们 在 这 里 只 给 出 文字 描述 并 将 实现 代码 作为 练习 〈 请 见 练 
习 2.4.3) 。 
2.4.2.1 数组 实现 〈 无 序 ) 

或 许 实现 优先 队列 的 最 简单 方法 就 是 基于 2.1 节 中 下 压 栈 的 代码 。insert0 方法 的 代码 和 栈 
的 push 0 方法 完全 一 样 。 要 实现 删除 最 大 元 素 , 我们 可 以 添加 一 段 类 似 于 选择 排序 的 内 循环 的 代码 ， 
将 最 大 元 素 和 边界 元 素 交 换 人 然后 删除 它 ， 和 我 们 对 栈 的 pop 0) 方法 的 实现 一 样 。 和 栈 类 似 ， 我 们 也 
可 以 加 入 调整 数组 大 小 的 代码 来 保证 数据 结构 中 至 少 含 有 四 分 之 一 的 元 素 而 又 永远 不 会 淤 出 。 
2.4.2.2 ”数组 实现 《有 序 ) 

另 一 种 方法 就 是 在 insert0) 方法 中 添加 代码 ， 将 所 有 较 大 的 元 素 向 右边 移动 一 格 以 使 数组 保 
持 有 序 (和 插入 排序 一 样 ) 。 这 样 ， 最 大 的 元 素 总 会 在 数组 的 一 边 ， 优 先 队 列 的 删除 最 大 元 素 操作 
就 和 栈 的 popQ 操作 一 样 了 。 
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2.4.2.3 ”链表 表示 法 

和 刚才 类 似 ， 我 们 可 以 用 基于 链表 的 下 压 栈 的 代码 作为 基础 ， 而 后 可 以 选择 修改 pop() 来 找到 
并 返回 最 大 元 素 ， 或 是 修改 push() 来 保证 所 有 元 素 为 逆序 并 用 pop0) 来 删除 并 返回 链表 的 首 元 素 
(也 就 是 最 大 的 元 素 ) 。 
使 用 无 序 序 列 是 解决 这 个 问题 的 惰性 方法 ,我 们 仪 在 必要 的 时 候 才 会 采取 行动 ( 找 出 最 大 元 素 》 
使 用 有 序 序列 则 是 解决 问题 的 积极 方法 ， 因 为 我 们 会 尽 可 能 未 雨 绸 织 ( 在 插入 元 素 时 就 保持 列表 有 
序 ) ， 使 后 续 操 作 更 高 效 。 

实现 栈 或 是 队列 与 实现 优先 队列 的 最 大 不 同 在 于 对 性 能 的 要 求 。 对 于 栈 和 队列 ， 我 们 的 实现 能 
够 在 常数 时 间 内 完成 所 有 操作 ; 而 对 于 优先 队列 ， 我 们 刚刚 讨论 过 的 所 有 初级 实现 中 ， 揪 入 元 素 和 
删除 最 大 元 素 这 两 个 操作 之 一 在 最 坏 情况 下 需要 线性 时 间 来 完成 (如 表 2.4.3 所 示 ) 。 我 们 接 下 来 
要 讨论 的 基于 数据 结构 堆 的 实现 能 够 保证 这 两 种 操作 都 能 更 快 地 执行 。 


表 2.4.3 ”优先 队列 的 各 种 实现 在 最 坏 情况 下 运行 时 间 的 增长 数量 级 


数据 结构 插入 元 素 删除 最 大 元 素 
有 序数 组 N 1 
无 序数 组 1 N 

了 logN logN 
理想 情况 1 1 


在 一 个 优先 队列 上 执行 的 一 系列 操作 如 表 2.4.4 所 示 。 
表 2.4.4 在 一 个 优先 队列 上 执行 的 一 系列 操作 


操作 参数 返回 值 大 小 内 容 (无 序 ) 内 容 (有 序 ) 

插入 元 素 P 1 P P 

插入 元 素 Q P Q P Q 

插入 元 素 E 3 Pp Q E E P Q 

吓 除 最 大 元 素 Q 2 Pp E E P 

插入 元 素 X 3 Pp E Xx E P X 

插入 元 素 A 4 Pp E x A A E P Xx 

插入 元 素 M 5 PE X A M A E MP 

I 除 最 大 元 素 X 4 P E M A A E MP 

插入 元 素 Pp 5 P E M A P A E M PP 

插入 元 素 L 6 PE M A PL A E LM PP 

插入 元 素 E 7 PE M A P LE A E E LM PP 
312 删除 最 大 元 素 P 6 E E M A PL A E E L MP 


2.4.3” 堆 的 定义 

数据 结构 二 又 堆 能 够 很 好 地 实现 优先 队列 的 基本 操作 。 在 二 又 堆 的 数组 中 ， 每 个 元 素 都 要 保证 
大 于 等 于 另 两 个 特定 位 置 的 元 素 。 相 应 地 ,这 些 位 置 的 元 素 又 至 少 要 大 于 等 于 数组 中 的 男 两 个 元 素 ， 
以 此 类 推 。 如 果 我 们 将 所 有 元 素 画 成 一 棵 二 又 树 ， 将 每 个 较 大 元 素 和 两 个 较 小 的 元 素 用 边 连 接 就 可 
以 很 容易 看 出 这 种 结构 。 


定义 。 当 一 棵 三 又 树 的 每 个 结 点 都 大 于 等 于 它 的 两 个 子 结 点 时 ， 它 被 称 为 堆 有 序 。 
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相应 地 ,在 堆 有 序 的 二 又 树 中 ,每 个 结 点 都 小 于 等 于 它 的 父 结 点 ( 如 果 有 的 话 ) 从 任意 结 点 向 上 ， 
我 们 都 能 得 到 一 列 非 递减 的 元 素 ; 从 任意 结 点 向 下 ， 我 们 都 能 得 到 一 列 非 递增 的 元 素 。 特 别 地 : 


命题 O。 根 结 点 是 扒 有 序 的 二 又 树 中 的 最 大 结 点 。 


证 明 。 根 据 树 的 性 质 归 纳 可 得 。 


二 叉 堆 表示 法 

如 果 我 们 用 指针 来 表示 堆 有 序 的 二 又 树 ， 那么 每 个 元 
素 都 需要 三 个 指针 来 找到 它 的 上 下 结 点 〈 父 结 点 和 两 个 子 
结 点 各 需要 一 个 ) 。 但 如 图 2.4.1 所 示 ， 如 果 我 们 使 用 完 
全 二 又 树 ， 表 达 就 会 变 得 特别 方便 。 要 画 出 这 样 一 棵 完全 
二 叉 树 ， 可 以 先 定 下 根 结 点 ， 然 后 一 层 一 层 地 由 上 向 下 、 
从 左 至 右 ， 在 每 个 结 点 的 下 方 连 接 两 个 更 小 的 结 点 ， 直 至 
将 NN 个 结 点 全 部 连接 完毕 。 完 全 二 又 树 只 用 数组 而 不 需 
要 指针 就 可 以 表示 。 具 体 方法 就 是 将 二 叉 树 的 结 点 按照 层级 顺序 放 人 数组 中 ， 根 结 点 在 位 置 1， 它 
的 子 结 点 在 位 置 2 和 3， 而 子 结 点 的 子 结 点 则 分 别 在 位 置 4、5、6 和 7， 以 此 类 推 。 313 


图 2.4.1 一 棵 堆 有 序 的 完全 二 又 树 


定义 。 三 又 堆 是 一 组 能 够 用 扒 有 序 的 完全 三 又 树 排序 的 元 素 ， 并 在 数组 中 按照 层级 储存 〈 不 使 
用 数组 的 第 一 个 位 置 ) 。 


( 简单 起 见 ， 在 下 文中 我 们 将 二 又 堆 简 称 为 堆 ) 在 一 个 堆 中 ,位 置 的 结 点 的 父 结 点 的 位 置 为 
Li/24， 而 它 的 两 个 子 结 点 的 位 置 则 分 别 为 2k 和 2k+1。 这 样 在 不 使 用 指针 的 情况 下 (我 们 在 第 3 章 
中 讨论 二 又 树 时 会 用 到 它们 ) 我 们 也 可 以 通过 计算 数组 的 索引 在 树 中 上 下 移动 : 从 a[k] 向 上 一 层 
就 令 k 等 于 k/2， 向 下 一 层 则 令 k 等 于 2k 或 2k+1。 

用 数组 ( 堆 ) 实现 的 完全 二 又 树 的 结构 是 很 严格 的 ， 但 它 的 灵活 性 已 经 足以 让 我 们 高 效 地 实现 优 
先 队 列 。 用 它们 我 们 将 能 实现 对 数 级 别 的 插入 


i 0 1 2 3 4 5 6 7 8 91011 

元 素 和 删除 最 大 元 素 的 操作 。 利 用 在 数组 中 无 al] - T SRPNOAE THSG 
需 指针 即 可 沿 树 上 下 移动 的 便利 和 以 下 性 质 ， 
算法 保证 了 对 数 复杂 度 的 性 能 。 SS 

于 i NE 

命题 P。 一 棵 大 小 为 N 的 完全 二 又 树 的 

高 度 为 LlgNj。 Ne 

证 明 。 通 过 归纳 很 容易 可 以 证 明 这 一 点 ， 1 Eee 


且 当 NN 达到 2 的 千 时 树 的 高 度 会 如 1。 


堆 的 表示 如 图 2.4.2 所 示 。 314 


2.4.4” 堆 的 算法 
我 们 用 长 度 为 N+1 的 私有 数组 pq[] 来 图 2.4.2” 堆 的 表示 
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表示 一 个 大 小 为 N 的 堆 ， 我 们 不 会 . va 
private boolean less(int i, int j) 
使 用 pq[0]， 堆 元 素 放 在 pq[1] 至 { return pq[il.comparelo(pq[j|) < 0; } 
pq[N] 中 。 在 排序 算法 中 ， 我 们 只 通 
过 私有 辅助 函数 less() 和 exch() 来 
访问 元 素 ， 但 因为 所 有 的 元 素 都 在 数 
组 pq[] 中 ,我 们 在 2.4.4.2 节 中 会 使 
用 更 加 紧 竣 的 实现 方式 ,不 再 将 数组 作为 参数 传递 。 堆 的 操作 会 首先 进行 一 些 简单 的 改动 ， 打 破 堆 
的 状态 , 然后 再 遍历 堆 并 按照 要 求 将 堆 的 状态 恢复 ,我 们 称 这 个 过 程 叫做 堆 的 有 序 化 (reheapifying )。 
堆 实 现 的 比较 和 交换 方法 如 右上 方 的 代码 框 所 示 。 
在 有 序 化 的 过 程 中 我 们 会 遇 到 两 种 情况 。 当 某 个 结 点 的 优先 级 上 升 ( 或 是 在 堆 底 加 入 一 个 新 的 
元 素 ) 时 ,我们 需要 由 下 至 上 恢复 堆 的 顺序 。 当 某 个 结 点 的 优先 级 下 降 ( 例如， 将 根 结 点 替换 为 一 
个 较 小 的 元 素 ) 时 ,我 们 需要 由 上 至 下 恢复 堆 的 顺序 。 首 先 ， 我 们 会 学 习 如 何 实 现 这 两 种 辅助 操作 ， 
然后 再 用 它们 实现 播 入 元 素 和 删除 最 大 元 素 的 操作 。 
2.4.4.1 由 下 至 上 的 堆 有 序 化 〈 上 浮 ) 


private void exch(int i, int j) 
{ Key t = pq[i]; pq[i] = pq[j]; pq[j] = t; } 


堆 实 现 的 比较 和 交换 方法 


如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 父 结 
点 更 大 而 被 打破 ， 那 么 我 们 就 需要 通过 交换 它 和 它 的 
父 结 点 来 修复 堆 。 交 换 后 ， 这 个 结 点 比 它 的 两 个 子 结 
点 都 大 (一 个 是 曾经 的 父 结 点 ， 男 一 个 比 它 更 小 ， 因 
为 它 是 曾经 父 结 点 的 子 结 点 ) ， 但 这 个 结 点 仍然 可 能 
比 它 现在 的 父 结 点 更 大 。 我 们 可 以 一 遍 饥 地 用 同样 的 
办 法 恢复 秩序 ， 将 这 个 结 点 不 断 向 上 移动 直到 我 们 遇 


private void swim(int k) 
{ 
while (k > 1 && less(k/2, k)) 
{ 
exchCk/2, k); 
k = k/2; 
上 


由 下 至 上 的 堆 有 序 化 (上浮 ) 的 实现 


到 了 一 个 更 大 的 父 结 点 。 只 要 记 住 位 置 的 结 点 的 父 

结 点 的 位 置 是 [WW21]， 这 个 过 程 实现 起 来 很 简单 。swim() 方法 中 的 循环 可 以 保证 只 有 位 置 大 上 的 结 
点 大 于 它 的 父 结 点 时 堆 的 有 序 状 态 才 会 被 打破 。 因 此 只 要 该 结 点 不 再 大 于 它 的 父 结 点 , 堆 的 有 序 状 
态 就 恢复 了 。 至 于 方法 名 ， 当 一 个 结 点 太 大 的 时 候 它 需要 浮 (swim ) 到 堆 的 更 高 层 。 由 下 至 上 的 堆 
有 序 化 的 实现 代码 如 右上 方 所 示 。 

图 2.4.3 展示 的 是 由 下 至 上 的 堆 有 序 化 示意 图 。 
2.4.4.2 ”由 上 至 下 的 堆 有 序 化 〈 下 沉 ) 

如 果 堆 的 有 序 状 态 因 为 某 个 结 点 变 得 比 它 的 两 个 子 结 点 或 是 其 中 之 一 更 小 了 而 被 打破 了 ， 那 么 
我 们 可 以 通过 将 它 和 它 的 两 个 子 结 点 中 的 较 大 者 交换 来 恢复 堆 。 交 换 可 能 会 在 子 结 点 处 继续 打破 堆 
的 有 序 状态 ， 因 此 我 们 需要 不 断 地 用 相同 的 方式 将 其 修复 ,将 结 点 向 下 移动 直到 它 的 子 结 点 都 比 它 
更 小 或 是 到 达 了 堆 的 底部 。 由 位 置 为 k 的 结 点 的 子 结 点 位 于 2k 和 2k+1 可 以 直接 得 到 对 应 的 代码 。 
至 于 方法 名 ， 由 上 至 下 的 堆 有 序 化 的 示意 图 及 实现 代码 分 别 见 图 2.4.4 和 下 页 的 代码 框 。 当 一 个 结 
点 太 小 的 时 候 它 需 要 沉 (sink ) 到 堆 的 更 低层 。 

如 果 我 们 把 堆 想 象 成 一 个 严密 的 黑社会 组 织 ， 每 个 子 结 点 都 表示 一 个 下 属 〈 父 结 点 则 表示 它 的 
直接 上 级 ) ， 那 么 这 些 操作 就 可 以 得 到 很 有 趣 的 解释 。swim() 表示 一 个 很 有 能 力 的 新 人 加 入 组 织 
并 被 逐 级 提升 ( 将 能 力 不 够 的 上 级 踩 在 脚下 ) ， 直 到 他 遇 到 了 一 个 更 强 的 领导 。sink() 则 类 似 于 
整个 社团 的 领导 退休 并 被 外 来 者 取代 之 后 ， 如 果 他 的 下 属 比 他 更 厉害 ， 他 们 的 角色 就 会 交换 ， 这 种 
交换 会 持续 下 去 直到 他 的 能 力 比 其 下 属 都 强 为 止 。 这 些 理想 化 的 情景 在 现实 生活 中 可 能 很 罕见 , 但 
它们 能 够 帮助 你 理解 堆 的 这 些 基 本 行为 。 


sink() 和 swim() 方法 是 


的 键 值 大 于 父 结 点 ) 


图 2.4.3 ”由 下 至 上 的 堆 有 序 化 (上浮 ) 


插入 元 素 。 我 们 将 新 元 素 加 到 数组 末尾 ， 


增加 堆 的 大 小 并 让 这 个 新 元 素 上 浮 到 合适 的 位 


置 ( 


的 元 素 并 将 数组 的 最 后 一 


小 堆 


图 2. 


如 图 2.4.5 左 半 部 分 所 示 ) 。 
删除 最 大 元 素 。 我 们 从 数组 顶端 删 去 最 大 
个 元 素 放 到 顶端 ， 减 
的 大 小 并 让 这 个 元 素 下 沉 到 合适 的 位 置 ( 如 
4.5 右 半 部 分 所 示 ) 。 

算法 2.6 解决 了 我 们 在 本 节 开 始 时 提出 的 一 


个 基本 问题 : 它 对 优先 队列 API 的 实现 能 够 保 
证 插入 元 素 和 删除 最 大 元 素 这 两 个 操作 的 用 时 
和 队列 的 大 小 仅 成 对 数 关 系 。 


< 添加 元 素 打 破 
了 堆 的 有 序 性 


图 2.4.5 


(0) (A) 
问 一 粮 序 状 态 ( 子 结 点 
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高 效 实现 优先 队列 API 的 基础 ， 原 因 如 下 〈 具体 的 实现 请 见 算法 2.6 ) 。 


非 有 序 状 太 
We 个 
OO \R, 
Po 
(E) (9 
(VD 
: \R, 


Pr 加 


图 2.4.4 由 上 至 下 的 堆 有 序 化 〈 下 沉 ) 


private void sink(int k) 


下 
While (C2*k <= N) 
{ 
Dns 3 SS ee 
if (j < N && less(j, j+1)) j++; 
if (!less(k, j)) break; 
exen kD 
k= J; 
} 
3 
由 上 至 下 的 堆 有 序 化 (下 沉 ) 的 实现 
删除 最 大 元 素 © _。_ 待 删除 元 素 
(5) @ 
CPM ORGONG 
将 它 和 根 
GD (CO 站 结 点 交换 
__ 堆 的 有 序 
CN) 
从 堆 中 删 
(E) (DD (CT 一 元 来 


堆 的 操作 


313 
2 
317 


202 区 第 2 章 


318 


排 序 


算法 2.6 ”基于 堆 的 优先 队列 


public class MaxPQ<Key extends Comparable<Key>> 


€ 
private Key[] 


private int N = 


pq; // 基于 堆 的 完全 二 又 树 


public MaxPQCint maxN) 


{ pq= 


(Key[]) new Comparable[maxN+1]; } 


public boolean isEmpty() 
{ return N == 0; 了 


public int sizeQO) 


{ return N; 


} 


public void insert(Key v) 


+ 
pq[++N] = 
swim(N); 


} 


public Key del 
{ 


Key max = pq[1]; 


MaxO 


// 从 根 结 点 得 到 最 大 元 素 


exch(1, N--); // 将 其 和 最 后 一 个 结 点 交换 
pq[N+1] = null; // 防止 对 象 游离 
sink(1); // 恢复 堆 的 有 序 性 


return max; 


} 


// 辅助 方法 的 实现 请 见 本 节 前 面 的 代码 杠 
private boolean less(int 1，int j) 
private void exch(int 1, int j) 
private void swim(int k) 

private void sink(int k) 


} 
优先 队列 由 一 


我 们 从 pq[1] 中 得 到 需要 返回 的 元 素 , 然后 将 pq[N] 移动 到 pq[1]， 
同时 我 们 还 将 不 再 使 用 的 pq[N+1] 设 为 nu11, 以 便 系 统 回收 它 所 占用 的 空 


省略 了 动态 调整 数组 


这 是 


个 基于 堆 的 完全 二 叉 


0; // 存储 于 pq[1..N] 中 ，pq[0] 没 有 使 用 


又 树 表 示 ， 存 储 于 数组 pq[1..N] 中 ，pq[0] 没有 使 
insert() 中 , 我 们 将 N 加 一 并 把 新 元 素 添 加 在 数组 最 后 , 然后 用 swim() 恢复 


和 


的 秩序 。 在 de1Max() 中 ， 


将 N 减 


大 小 的 代码 。 其 他 的 构造 函数 请 见 练习 2.4.19。 


j sinkQ 恢复 堆 的 秩序 。 


间 。 和 以 前 一 样 ( 请 见 1.3 节 ) ， 


命题 Q。 对 于 一 个 含有 N 个 元 素 的 基于 堆 的 优先 队列 , 插入 元 素 操作 只 需 不 超过 (lgNM+1 ) 次 比较 ， 
删除 最 大 元 素 的 操作 需要 不 超过 2lgN 次 比较 。 


证 明 。 由 命题 P 可 知 ， 


lgN。 对 于 路 径 径 上 的 每 个 结 点 wy 
大 的 子 结 点 9 一 次 用 来 确定 该 子 结 点 是 “下 


对 于 需要 大 量 混杂 的 插入 和 删除 最 大 元 素 操 作 的 典型 应 用 来 说 ， 
突破 ， 总 结 请 见 表 2.4.3。 


两 种 操作 都 需要 在 根 结 点 和 堆 底 之 间 移 动 元 素 ， 


否 需 要 上 浮 。 


ee ( 除了 堆 底 元 素 ) ， 


而 路 径 的 长 度 不 超过 
一 次 用 来 找 出 较 


命题 Q 意味 着 一 个 重要 的 性 能 
使 用 有 序 或 是 无 序数 组 的 优先 队列 的 初级 实现 总 是 


是 需要 线性 时 间 来 完成 其 


中 一 种 操作 ,但 基于 堆 的 实现 则 能 够 保证 在 对 数 时 间 内 
完成 它们 。 这 种 差别 使 得 我 们 能 够 解决 以 前 无 法 解决 的 
问题 。 
2.4.4.3 ”多 又 堆 
基于 用 数组 表示 的 完全 三 又 树 构造 堆 并 修改 相应 的 
代码 并 不 困难 。 对 于 数组 中 1 至 NN 的 个 元 素 , 位 置 
的 结 点 大 于 等 于 位 于 3k-1、3k 和 3k+1 的 结 点 ， 小 于 等 
于 位 于 |L(k+1)/3j 的 结 点 。 甚 至 对 于 给 定 的 4， 将 其 修改 
为 任意 的 4 又 树 也 并 不 困难 。 我 们 需要 在 树 高 (logjN ) 
和 在 每 个 结 点 的 4 个 子 结 点 找到 最 大 者 的 代价 之 间 找 到 
折 中 ， 这 取决 于 实现 的 细节 以 及 不 同 操作 的 预期 相对 频 
繁 程度 。 

堆 上 的 优先 队列 操作 如 图 2.4.6 所 示 。 
2.4.4.4 调整 数组 大 小 

我 们 可 以 添加 一 个 没有 参数 的 构造 函数 ， 在 
insertQ 中 添加 将 数组 长 度 加 倍 的 代码 ， 在 delMax QO 
中 添加 将 数组 长 度 减 半 的 代码 , 就 像 在 1.3 节 中 的 栈 那 样 。 
这 样 ， 算 法 的 用 例 就 无 需 关注 各 种 队列 大 小 的 限制 。 当 
优先 队列 的 数组 大 小 可 以 调整 、 队 列 长 度 可 以 是 任意 值 
时 ,命题 Q 指出 的 对 数 时 间 复 杂 度 上 限 就 只 是 针对 一 般 
性 的 队列 长 度 N 而 言 了 (请 见 练习 2.4.22 ) 。 
2.4.4.5 “元 素 的 不 可 变性 

优先 队列 存储 了 用 例 创 建 的 对 象 ， 但 同时 假设 用 例 
代码 不 会 改变 它们 ( 改变 它们 就 可 能 打破 堆 的 有 序 性 ) 。 
我 们 可 以 将 这 个 假设 转化 为 强制 条 件 ， 但 程序 员 通常 不 
会 这 么 做 ， 因 为 增加 代码 的 复杂 性 会 降低 性 能 。 
2.4.4.6 ”索引 优先 队列 

在 很 多 应 用 中 ， 人 允许 用 例 引 用 已 经 进入 优先 队列 中 
的 元 素 是 有 必要 的 。 做 到 这 一 点 的 一 种 简单 方法 是 给 每 
个 元 素 一 个 索引 。 另 外 ， 一 种 常见 的 情况 是 用 例 已 经 有 
了 总 量 为 N 的 多 个 元 素 ， 而 且 可 能 还 同时 使 用 了 多 个 
(平行 ) 数组 来 存储 这 些 元 素 的 信息 。 此 时 ， 其 他 无 关 
的 用 例 代 码 可 能 已 经 在 使 用 一 个 整数 索引 来 引用 这 些 元 
素 了 。 这 些 考 虑 引导 我 们 设计 了 表 2.4.5 中 的 API。 


插入 元 素 


插入 元 素 


插入 元 素 


删除 最 大 元 素 


插入 元 素 


插入 元 素 


插入 元 素 


删除 最 大 元 素 


删除 最 大 元 素 
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图 2.4.6 在 堆 上 的 优先 队列 操作 


表 2.4.5 关联 索引 的 泛 型 优先 队列 的 API 


public class 


IndexMinPQ<Item extends Comparable<Item>> 


IndexMinPQCint maxN) 


void insert(int k, Item item) 


void change(int k, Item item) 


boolean contains(int k) 


为 0 至 maxN-1 
插入 一 个 元 素 ， 将 它 和 索引 k 相关 联 
将 索引 为 k 的 元 素 设 为 item 
是 否 存在 索引 为 k 的 元 素 


创建 一 个 最 大 容量 为 maxN 的 优先 队列 ， 索 引 的 取 值 范 四 


H 井 
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( 续 ) 
public class IndexMinPQ<Item extends Comparable<Item>> 
void delete(int k) 删 去 索引 k 及 其 相关 联 的 元 素 
Item min() 返回 最 小 元 素 
int minIndex() 返回 最 小 元 素 的 索引 
int delMinO) | 除 最 小 元 素 并 返回 它 的 索引 
人 boolean isEmptyC) 优先 队列 是 否 为 空 
320 int size() 优先 队列 中 的 元 素数 量 


理解 这 种 数据 结构 的 一 个 较 好 方法 是 将 它 看 成 一 个 能 够 快速 访问 其 中 最 小 元 素 的 数组 。 事 实 上 
它 还 要 更 好 一 一 它 能 够 快速 访问 数组 的 一 个 特定 子 集 中 的 最 小 元 素 ( 指 所 有 被 插入 的 元 素 ) 。 换 名 
话说 ， 可 以 将 名 为 pq 的 IndexMinPQ 类 优先 队列 看 做 数组 pq[0. .N-1] 中 的 一 部 分 元 素 的 代表 。 将 
pq.insert(k，item) 看 做 将 k 加 入 这 个 子 集 并 使 pq[k] = item，pq.change(k，item) 则 代表 令 
pq[k]=item。 这 两 种 操作 没有 改变 其 他 操作 所 依赖 的 数据 结构 ， 其 中 最 重要 的 就 是 delMinG) (删除 
最 小 元 素 并 返回 它 的 索引 ) 和 change()( 改变 数据 结构 中 的 某 个 元 素 的 索引 一 一 即 pq[i]=item ) 。 
这 些 操 作 在 许多 应 用 中 都 很 重要 并 且 依赖 于 对 元 素 的 引用 ( 索引) 。 练 习 2.4.33 说 明了 如 何 用 较 少 的 
代码 将 算法 2.6 扩 展 为 极 高 效 的 索引 优先 队列 。 一 般 来 说 , 当 堆 发 生变 化 时 ,我 们 会 用 下 沉 ( 元 素 减 小 时 ) 
或 上 浮 (元 素 变 大 时 ) 操作 来 恢复 堆 的 有 序 性 。 在 这 些 操作 中 ， 我 们 可 以 用 索引 查找 元 素 。 能 够 定位 
堆 中 的 任意 元 素 也 使 我 们 能 够 在 API 中 加 入 一 个 delete() 操作 。 


命题 Q( 续 ) 。 在 一 个 大 小 为 和 的 索引 优先 队列 中 , 插入 元 素 (insert ) 、 改 变 优 先 级 (change ) 、 
删除 ( delete ) 和 删除 最 小 元 素 (remove the minimum ) 操作 所 需 的 比较 次 数 和 1logN 成 正比 (如 
表 2.4.6 所 示 ) 。 


证 明 。 已 知 堆 中 所 有 路 径 最 长 即 为 ~lgN， 从 代码 中 很 容易 得 到 这 个 结论 。 


表 2.4.6 含有 N 个 元 素 的 基于 堆 的 索引 优先 队列 所 有 操作 在 最 坏 情况 下 的 成 本 


操 作 比较 次 数 的 增长 数量 级 
insert(O) logN 
changeQO) logN 
contains() 1 
delete() logN 
min(C) 1 
minIndex() 1 
delMin() logN 
这 段 讨论 针对 的 是 找 出 最 小 元 素 的 队列 ;和 以 前 一 样 ， 我 们 也 在 本 书 网 站 上 实现 了 一 个 找 出 最 
大 元 素 的 版 本 IndexMaxPQ。 


2.4.4.7 ”索引 优先 队列 用 例 

下 面 的 用 例 调用 了 IndexMinPQ 的 代码 Multiway 解决 了 多 向 归并 问题 : 它 将 多 个 有 序 的 输入 
流 归 并 成 一 个 有 序 的 输出 流 。 许 多 应 用 中 都 会 遇 到 这 个 问题 。 输 入 可 能 来 自 于 多 种 科学 仪器 的 输出 
〈 按 时间 排 序 ) ， 或 是 来 自 多 个 音乐 或 电影 网 站 的 信息 列表 ( 按 名 称 或 艺术 家 名 字 排 序 ) ， 或 是 商 
业 交 易 〈 按 账号 或 时 间 排 序 ) ， 或 者 其 他 。 如 果 有 足够 的 空间 ， 你 可 以 把 它们 简单 地 读 和 人 一 个 数组 
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并 排序 ， 但 如 果 用 了 优先 队列 ， 无 论 输入 有 多 长 你 都 可 以 把 它们 全 部 读 人 并 排序 。 321 


使 用 优先 队列 的 多 向 归并 


public class Multiway 
{ 
public static void merge(In[] streams) 
{ 
int N = streams.length; 
IndexMinPQ<String> pq = new IndexMinPQ<String>(N); 


for Cint i = 0; i < N; i++) 
if (!streams[i].isEmpty()) 
pq.insert(i, streams[i].readString()); 


while (!pq.isEmpty(O)) 
{ 


StdOut.printinCpq.min()); 
int 1 = pq.delMinQO); 


if (!streams[i].isEmpty()) 
pq.insert(i, streams[i].readString()); 


} 


public static void main(String[] args) 
{ 
int N = args.length; 
In[] streams = new In[N]; 
for (Cint 1 = 0; i < N; i++) 
streams[i] = new In(args[i]); 
merge(streams); 
} 
3 


这 段 代码 调用 了 IndexMinPQ 来 将 作为 命令 行 参 数 输 入 的 多 行 有 序 字 符 串 归并 为 一 行 有 序 的 输出 (请 
见 正文 ) 。 每 个 输入 流 的 索引 都 关联 着 一 个 元 素 (输入 中 的 下 个 字符 串 )。 初 始 化 之 后 , 代码 进入 一 个 循环 ， 
删除 并 打印 出 队列 中 最 小 的 字符 串 ， 然 后 将 该 输入 的 下 一 个 字符 申 添 加 为 一 个 元 素 。 为 了 节约 ， 下 面 将 
所 有 的 输出 :输出 应 该 是 一 个 字符 串 一 行 。 


% more ml.txt 
‘AMBE GE OI 
% more m2.txt 


BaDarnbeoa 
% more m3.txt % java Multiway ml.txt m2.txt m3.txt 
六 EN ATAVESBEBECID ENN GT NE OO 322 


2.4.5_“ 堆 排序 

我 们 可 以 把 任意 优先 队列 变 成 一 种 排序 方法 。 将 所 有 元 素 插入 一 个 查找 最 小 元 素 的 优先 队列 ， 
然后 再 重复 调用 删除 最 小 元 素 的 操作 来 将 它们 按 顺 序 删 去 。 用 无 序数 组 实现 的 优先 队列 这 么 做 相当 
于 进行 一 次 选择 排序 。 用 基于 堆 的 优先 队列 这 样 做 等 同 于 哪 种 排序 ”一 种 全 新 的 排序 方法 ! 下 面 我 
们 就 用 堆 来 实现 一 种 经 典 而 优雅 的 排序 算法 一 一 堆 排序 。 

堆 排序 可 以 分 为 两 个 阶段 。 在 堆 的 构造 阶段 中 ,我们 将 原始 数组 重新 组 织 安 排 进 一 个 堆 中 ; 然 
后 在 下 沉 排序 阶段 ， 我 们 从 堆 中 按 递减 顺序 取出 所 有 元 素 并 得 到 排序 结果 。 为 了 和 我 们 已 经 学 习 过 
的 代码 保持 一 致 , 我们 将 使 用 一 个 面向 最 大 元 素 的 优先 队列 并 重复 删除 最 大 元 素 。 为 了 排序 的 需要 ， 
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就 可 以 将 需要 排序 的 数组 本 身 作为 堆 ， 因 此 无 需 任何 额外 空间 。 


2.4.5.1” 堆 的 构造 


我 们 不 再 将 优先 队列 的 具体 表示 隐藏 ， 并 将 直接 使 用 swim() 和 sinkQ 操作 。 这 样 我 们 在 排序 时 


由 个 给 定 的 元 素 构造 一 个 堆 有 多 难 ?我们 当然 可 以 在 与 MogN 成 正比 的 时 间 内 完成 这 项 任 


即 可 ， 就 像 连 续 向 优先 队列 中 搬入 元 素 一 


务 ， 只 需 从 左 至 右 遍 历数 组 ,用 swimQ 保证 扫描 指针 左 侧 的 所 有 元 素 已 经 是 一 棵 堆 有 序 的 完全 树 
样 。 一 个 更 聪明 更 高 效 的 办 法 是 从 右 至 左 用 sinkQ 函数 


构造 子 堆 。 数 组 的 每 个 位 置 都 已 经 是 一 个 子 堆 的 根 结 点 了 ，sinkQ 对 于 这 些 子 堆 也 适用 。 如 果 一 
全 小 考生 原审 熙 人 又 是 堆 了 ， ， 那 么 在 该 吉 点 上 调用 sinkQ 〇 可 以 将 它们 变 成 一 个 堆 。 这 个 过 


程 会 递归 地 建立 起 堆 的 秩序 。 开 始 时 我 们 只 需要 扫描 数组 中 的 一 半 元 素 ， 因 为 我 们 可 以 跳 过 大 小 为 


1 的 子 堆 。 最 后 我 们 在 位 置 1 上 调用 sinkQ 〇 方法 ,扫描 结 束 。 在 排序 的 第 一 阶段 ， 堆 的 构造 方法 
和 我 们 的 想象 有 所 不 同 , 因为 我 们 的 目标 是 构造 一 个 堆 有 序 的 数组 并 使 最 大 元 素 位 于 数组 的 开头 (次 


命题 R。 用 下 沉 操 作 由 N 个 元 素 构造 扒 只 


证 明 。 观 察 可 知 ， 构 造 过 程 中 处 理 的 堆 都 较 小 。 例 如 ， 


理 32 个 大 小 为 3 的 推 ，16 个 大 小 为 7 


小 为 63 的 推 和 1 个 大 小 为 127 的 扒 ， 因 


2X5+1X6=120 次 交换 (以 及 两 倍 的 上 


堆 排 序 的 实现 过 程 如 算法 2.7 所 示 。 
算法 2.7 堆 排 序 


大 的 元 素 在 附近 ) 而 非 构 造 函 数 结束 的 末尾 。 


需 少 于 2N 次 比较 以 及 少 于 入 次 交换 。 


要 构造 一 个 127 个 元 素 的 扒 ， 我 们 会 处 
的 推 ，8 个 大 小 为 15 的 推 ，4 个 天 小 为 31 的 维 ，2 个 大 


此 (最 坏 情况 下 ) 需要 32Xx1+16x2+8x3+4xXx41 
上 较 ) 。 完 整 证 明 请 见 练 习 2.4.20。 
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public static void 
sort(Comparable[] a) 
{ 
int N = a.length; 
for (Cint k = N/2; k >= 1 
k--) 
sink(a, k, N); 
while (N > 1) 
{ 
exch(a, 1, N--); 
sink(a, 1, N); 
} 
} 


这 段 代码 用 sinkQ 方法 将 a[1] 到 
a[N] 的 元 素 排序 (sinkQ 被 修改 过 ， 以 
a[] 和 N 作为 参数 ) 。for 循环 构造 了 堆 ， 
然后 while 循 环 将 最 大 的 元 素 a[1] 和 
a[N] 交换 并 修复 了 堆 ， 如 此 重复 直到 堆 变 
空 。 将 exch() 和 1ess0 的 实现 中 的 索 
引 减 一 即 可 得 到 和 其 他 排序 算法 一 致 的 实 
现 (将 a[0] 至 a[N-1] 排序 ) 。 堆 排序 
具体 流程 示意 图 显示 在 图 2.4.7 中 。 


a[i] 

N k 0 12 3 4 5 6 7 8 91011 
初始 值 Ss 0 RT 'E Xx M P L E 
1 5 L EE 
11 4 T M P 

1 3 X R A 

11 2 F P 上 M 0 

J 1 X T S R A 

堆 有 序 Xx T S PL R A MO E E 
10 1 T P 9 L M E 

9 1 S P R E A T 

8 1 R P E E A S 

7 1 P 0O E ML R 

6 1 OM E A L P 

5 1 M L E A E 0 

4 1 L E E A M 

3 1 E A E L 

2 1 E A E 

1 1 A E 
排序 结果 A E E LM 0O P R S T Xx 

堆 排 序 的 轨迹 《每 次 下 沉 后 的 数组 内 容 ) 
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堆 的 构造 下 沉 排 序 


sexshei: 6 
sink(l1, 5 


B® 
@ o 


初始 状态 (任意 顺序 ) 初始 状态 〈 堆 有 序 ) 
sink(5，11) 
ink (4, 11 h(1, 10 hC1, 4 
en it, 如 hd: Sg 
(A) \E) 
L 


G 
oo 


sink(3, 11) 
(X) E 
(R) (A) 
ee DBD Md © 
AD (0 局 E 
(PY (Lb, WW DD) © OW 
MW (0) (BE (© R 


exch(l1, 7 1A 
sink(1，11) SA 省 (0) ee 
(A) © 4 5M 50 7p 


图 2.4.7 堆 排 序 ， 堆 的 构造 ( 左 ) 和 下 沉 排序 〈 右 ) 325 


2.4.5.2 下 沉 排 序 

堆 排 序 的 主要 工作 都 是 在 第 二 阶段 完成 的 。 这 里 我 们 将 堆 中 的 最 大 元 素 删除 ， 然 后 放 入 堆 缩 小 
后 数组 中 空 出 的 位 置 。 这 个 过 程 和 选择 排序 有 些 类 似 〈 按照 降序 而 非 升 序 取出 所 有 元 素 ) ， 但 所 需 
的 比较 要 少 得 多 ， 因 为 堆 提 供 了 一 种 从 未 排序 部 分 找到 最 大 元 素 的 有 效 方法 。 
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命题 S。 将 N 个 元 素 排 序 , 堆 排序 只 需 少 于 ( 2NlgN 输入 一 ,中 hn. 
+2N) 次 比较 ( 以 及 一 半 次 数 的 交换 ) 。 
证 明 。2N 项 来 自 于 堆 的 构造 ( 见 命题 民 ) 。 hhh 
2NlgN 项 来 自 于 每 次 下 沉 操作 最 大 可 能 需要 2lgN 中 中 
次 比较 ( 见 命 题 P 与 命题 Q) 。 Mlb | 
堆 有 序 一 

算法 2.7 完整 地 实现 了 这 些 思想 ， 也 就 是 经 典 的 a 
堆 排序 算法 。 它 的 发 明 人 是 JW.J Williams, 并 由 R.W. 是 下 沉 的 元 素 
Floyd 在 1964 年 改进 。 尽 管 这 段 程序 中 循环 的 任务 各 jp 1 
不 同 (第 一 段 循环 构造 堆 ， 第 二 段 循环 在 下 沉 排序 中 
销毁 堆 ) ， 它 们 都 是 基于 sinkO 方法 。 我 们 将 该 实 IN ll 
现 和 优先 队列 的 API 独立 开 来 是 为 了 突出 这 个 排序 算 NT 
法 的 简洁 性 (sortO 方法 只 需 8 行 代码 ，sinkQ 函 中 Di 
数 8 行 ) ， 并 使 其 可 以 舱 入 其 他 代码 之 中 。 jp 

和 以 前 一 样 , 通过 研究 可 视 轨迹 ( 如 图 2.4.8 所 示 ) ; i 
我 们 可 以 深入 了 解 算法 的 操作 。 一 开始 算法 的 行为 似 In 素 不 会 移动 
乎 杂乱 无 章 ， 因 为 随 着 堆 的 构建 较 大 的 元 素 都 被 移动 Nihil 
到 了 数组 的 开头 ， 但 接 下 来 算法 的 行为 看 起 来 就 和 先 Mihi 
择 排 序 一 模 一 样 了 (除了 它 比较 的 次 数 少 得 多 ) 。 Hp 

和 我 们 学 过 的 其 他 算法 一 样 ， 很 多 人 都 研究 过 许 a 
多 改进 基于 堆 的 优先 队列 的 实现 和 堆 排 序 的 方法 。 我 ee 
们 这 里 简要 地 看 看 其 中 之 一 。 黑色 的 元 素 

3 正在 进行 交换 


2.4.5.3” 先 下 沉 后 上 浮 

大 多 数 在 下 沉 排 序 期 间 重 新 插入 堆 的 元 素 会 被 直 
接 加 入 到 堆 底 。Floyd 在 1964 年 观察 发 现 ， 我 们 正 
好 可 以 通过 人 免 去 检查 元 素 是 否 到 达 正 确 位 置 来 节省 时 
间 。 在 下 沉 中 总 是 直接 提升 较 大 的 子 结 点 直至 到 达 堆 


请 


lisall 
底 ， 然 后 再 使 元 素 上 浮 到 正确 的 位 置 。 这 个 想法 几乎 
可 以 将 比较 次 数 减少 一 半 一 一 接近 了 归并 排序 所 需 的 


比较 次 数 ( 随机 数组 ) 。 这 种 方法 需要 额外 的 空间 ， je 
因此 在 实际 应 用 中 只 有 当 比 较 操作 代价 较 高 时 才 有 
( 例如 ， 当 我 们 在 将 字符 串 或 者 其 他 键 值 较 长 类 型 的 结果 sea 
元 素 进行 排序 时 ) 。 
堆 排序 在 排序 复杂 性 的 研究 中 有 着 重要 的 地 位 ， 图 248 准 排 序 的 可 视 轨迹 ( 另 见 彩 桥 ) 
因为 它 是 我 们 所 知 的 唯一 能 够 同时 最 优 地 利用 空间 和 时 间 的 方法 一 一 在 最 坏 的 情况 下 它 也 能 保证 使 
用 ~ 2NMgN 次 比较 和 恒定 的 额外 空间 。 当 空间 十 分 紧张 的 时 候 ( 例如 在 嵌入 式 系统 或 低 成 本 的 移动 设 
备 中 ) 它 很 流行 ， 因 为 它 只 用 几 行 就 能 实现 ( 甚至 机 器 码 也 是 ) 较 好 的 性 能 。 但 现代 系统 的 许多 应 用 
很 少 使 用 它 ， 因 为 它 无 法 利用 缓存 。 数 组 元 素 很 少 和 相 邻 的 其 他 元 素 进行 比较 ， 因 此 缓存 未 命中 的 次 
数 要 远 远 高 于 大 多 数 比较 都 在 相 邻 元 素 间 进 行 的 算法 ， 如 快速 排序 、 归 并 排序 ， 甚 至 是 希 尔 排序 。 
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男 一 方面 ， 用 堆 实 现 的 优先 队列 在 现代 应 用 程序 中 越 来 越 重 要 ， 因 为 它 能 在 插入 操作 和 删除 最 大 |326 
元 素 操作 混合 的 动态 场景 中 保证 对 数 级 别 的 运行 时 间 。 我 们 会 在 本 书后 续 章 节 见 到 更 多 的 例子 。 327 


问 我 还 是 不 明白 优先 队列 是 做 什么 用 的 。 为 什么 我 们 不 直接 把 元 素 排序 然后 再 一 个 个 地 引用 有 序数 组 
中 的 元 素 ? 

答 在 某 些 数据 处 理 的 例子 里 ， 比 如 TopM 和 Multiway， 总 数据 量 太 大 ， 无 法 排序 (甚至 无 法 全 部 装 进 
内 存 ) 。 如 果 你 需要 从 10 亿 个 元 素 中 选 出 最 大 的 十 个 ， 你 真 的 想 把 一 个 10 亿 规 模 的 数组 排序 吗 ? 
但 有 了 优先 队列 ， 你 就 只 用 一 个 能 存储 十 个 元 素 的 队列 即 可 。 在 其 他 的 例子 中 ， 我 们 甚至 无 法 同时 
获取 所 有 的 数据 ， 因 此 只 能 先 从 优先 队列 中 取出 并 处 理 一 部 分 ， 然 后 再 根据 结果 决定 是 否 向 优先 队 
列 中 添加 更 多 的 数据 。 

问 ”为 什么 不 像 我 们 在 其 他 排序 算法 中 那样 使 用 Comparable 接口 , 而 在 MaxPQ 中 使 用 泛 型 的 Item 呢 ? 

答 这 么 做 的 话 delMaxQ 的 用 例 就 需要 将 返回 值 转换 为 某 种 具体 的 类 型 ， 比 如 String。 一般 来 说 ， 应 
该 尽量 避免 在 用 例 中 进行 类 型 转换 。 

问 ”为 什么 在 堆 的 表示 中 不 使 用 a[0] ? 

答 这 人 么 做 可 以 稍稍 简化 计算 。 实 现 从 0 开始 的 堆 并 不 困难 ，a[0] 的 子 结 点 是 a[1] 和 a[2]，a[1] 的 
子 结 点 是 a[3] 和 a[4] ，a[2] 的 子 结 点 是 a[5] 和 a[6] ， 以 此 类 推 。 但 大 多 数 程序 员 更 喜欢 我 们 的 
简单 方法 。 另 外 , 将 a[0] 的 值 用 作 哨 兵 〈 作 为 a[1] 的 父 结 点 ) 在 某 些 堆 的 应 用 中 很 有 用 。 

问 ”在 我 看 来 ， 在 堆 排 序 中 构造 堆 时 ， 逐 个 向 堆 中 添加 元 素 比 2.4.5.1 节 中 描述 的 由 底 向 上 的 复杂 方法 更 
简单 。 为 什么 要 这 么 做 ? 

答 ” 对 于 一 个 排序 算法 来 说 ， 这 么 做 能 够 快 上 20%， 而 且 所 需 的 代码 更 少 (不 会 用 到 swim() 函数 ) 。 
理解 算法 的 难度 并 不 一 定 与 它 的 简洁 性 或 者 效率 相关 。 

问 ”如果 我 去 掉 MaxPQ 的 实现 中 的 extends Comparable<Key> 这 句 话 会 怎样 ? 


答 ” 和 以 前 一 样 ， 回 答 这 类 问题 的 最 简单 的 办 法 就 是 你 自己 直接 试 试 。 如 果 这 么 做 MaxPQ 会 报 出 一 个 编 
译 错误 : 
MaxPQ.java:21: cannot find symbol 
symbol : method compareTo(Item) 


Java 这 样 告诉 你 它 不 知道 Item 对 象 的 compareTo() 方 法， 因为 你 没有 声明 Item extends 


Comparable<Item>。 


图 练习 
2 


.4.1 用 序列 PRIO*R**I*T*Y***QUE***U*E (字母 表示 插入 元 素 ， 星 号 表 
示 删 除 最 大 元 素 ) 操作 一 个 初始 为 空 的 优先 队列 。 给 出 每 次 删除 最 大 元 素 返 回 的 字符 。 

2.4.2 分 析 以 下 说 法 : 要 实现 在 常数 时 间 找 到 最 大 元 素 ， 为 何不 用 一 个 栈 或 队列 ， 然 后 记录 已 插入 的 最 
大 元 素 并 在 找 出 最 大 元 素 时 返回 它 的 值 ? 

2.4.3 用 以 下 数据 结构 实现 优先 队列 ， 支 持 插 入 元 素 和 删除 最 大 元 素 的 操作 : 无 序数 组 、 有 序数 组 、 无 
序 链表 和 链表 。 将 你 的 4 种 实现 中 每 种 操作 在 最 坏 情况 下 的 运行 时 间 上 下 限制 成 一 张 表格 。 

2.4.4 一 个 按 降序 排列 的 数组 也 是 一 个 面向 最 大 元 素 的 堆 吗 ? 


328 
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2.4.24 


将 EASYQUESTION 顺序 插入 一 个 面向 最 大 元 素 的 堆 中 ， 给 出 结果 。 
按照 练习 2.4.1 的 规则 ,用 序列 PRIO*R**I*T*Y***wQUE***wU*E 操 
作 一 个 初始 为 空 的 面向 最 大 元 素 的 堆 ， 给 出 每 次 操作 后 堆 的 内 容 。 

在 堆 中 ， 最 大 的 元 素 一 定 在 位 置 1 上 ， 第 二 大 的 元 素 一 定 在 位 置 2 或 者 3 上 。 对 于 一 个 大 小 为 31 
的 堆 , 给 出 第 大 的 元 素 可 能 出 现 的 位 置 和 不 可 能 出 现 的 位 置 , 其 中 及 2、3、4( 设 元 素 值 不 重复 ) 。 
回答 上 一 道 练习 中 第 小 元 素 的 可 能 和 不 可 能 的 位 置 。 

给 出 A B C D E 五 个 元 素 可 能 构造 出 来 的 所 有 堆 ， 然 后 给 出 A A A B B 这 五 个 元 素 可 能 构造 出 
来 的 所 有 堆 。 

假设 我 们 不 想 浪 费 堆 有 序 的 数组 pq[] 中 的 那个 位 置 ， 将 最 大 的 元 素 放 在 pq[0] ， 它 的 子 结 点 放 
在 pq[1] 和 pq[2] ， 以 此 类 推 。pq[k] 的 父 结 点 和 子 结 点 在 哪里 ? 
如 果 你 的 应 用 中 有 大 量 的 插入 元 素 的 操作 ,但 只 有 若干 删除 最 大 元 素 操 作 ， 哪 种 优先 队列 的 实现 
方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

如 果 你 的 应 用 场景 中 大 量 的 找 出 最 大 元 素 的 操作 ， 但 插入 元 素 和 删除 最 大 元 素 操作 相对 较 少 ， 
哪 种 优先 队列 的 实现 方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

想 办 法 在 sink() 中 避免 检查 j < N。 

对 于 没有 重复 元 素 的 大 小 为 N 的 堆 ， 一 次 删除 最 大 元 素 的 操作 中 最 少 要 交换 几 个 元 素 ?” 构造 
一 个 能 够 达到 这 个 交换 次 数 的 大 小 为 15 的 堆 。 连 续 两 次 删除 最 大 元 素 呢 ?” 三 次 呢 ? 

设计 一 个 程序 ， 在 线性 时 间 内 检测 数组 pq[] 是 否 是 一 个 面向 最 小 元 素 的 堆 。 
对 于 N=32， 构 造 数 组 使 得 堆 排 序 使 用 的 比较 次 数 最 多 以 及 最 少 。 

证 明 : 构造 大 小 为 上 的 面向 最 小 元 素 的 优先 队列 ， 然 后 进行 N-K 次 蔡 换 最 小 元 素 操作 ( 删除 最 
小 元 素 后 再 插入 元 素 ) 后 ,NN 个 元 素 中 的 前 大 大 元 素 均 会 留 在 优先 队列 中 。 
在 MaxPQ 中 ， 如 果 一 个 用 例 使 用 insertQ 插入 了 一 个 比 队 列 中 的 所 有 元 素 都 大 的 新 元 素 ， 随 
后 立即 调用 de1Max() 。 假 设 没 有 重复 元 素 ， 此 时 的 堆 和 进行 这 些 操 作 之 前 的 堆 完 全 相同 吗 ? 进 
行 两 次 insert() (第 一 次 插入 一 个 比 队列 所 有 元 素 都 大 的 元 素 ， 第 二 次 插入 一 个 更 大 的 元 素 ) 
操作 接 两 次 de1Max 0) 操作 呢 ? 

实现 MaxPQ 的 一 个 构造 函数 ， 接 受 一 个 数组 作为 参数 。 使 用 正文 2.4.5.1 节 中 所 述 的 自 底 向 上 的 
方法 构造 堆 。 

证 明 : 基于 下 沉 的 堆 构 造 方法 使 用 的 比较 次 数 小 于 2N， 交 换 次 数 小 于 N。 


Ee 


基础 数据 结构 。 说 明 如 何 使 用 优先 队列 实现 第 1 章 中 的 栈 、 队 列 和 随机 队列 这 几 种 数据 结构 。 
调整 数组 大 小 。 在 MaxPQ 中 加 入 调整 数组 大 小 的 代码 ， 并 和 命题 Q 一 样 证 明 对 于 一 般 性 长 度 为 
和 的 队列 其 数组 访问 的 上 限 。 
Multiway 的 堆 。 只 考虑 比较 的 成 本 且 假 设 找到 个 元 素 中 的 最 大 者 需要 1 次 比较 ， 在 堆 排 序 中 使 
日 7 向 堆 的 情况 下 找 出 使 比较 次 数 NlgN 的 系数 最 小 的 1 值 。 首 先 ， 假设 使 用 的 是 一 个 简单 通用 
的 sinkQ 〇 方法 ; 其次， 假设 Floyd 方法 在 内 循环 中 每 轮 可 以 节省 一 次 比较 。 
使 用 链接 的 优先 队列 。 用 堆 有 序 的 二 又 树 实现 一 个 优先 队列 ， 但 使 用 链表 结构 代替 数组 。 每 个 
结 点 都 需要 三 个 链接 : 两 个 向 下 ， 一 个 向 上 。 你 的 实现 即使 在 无 法 预知 队列 大 小 的 情况 下 也 能 
保证 优先 队列 的 基本 操作 所 需 的 时 间 为 对 数 级 别 。 


— 
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2.4.25 计算 数论 。 编 写 程序 CubeSum.java， 在 不 使 用 额外 空间 的 条 件 下 ， 按 大 小 顺序 打印 所 有 w+A 的 
结果 ,其 中 a 和 4b 为 0 至 入 之 间 的 整数 。 也 就 是 说 ,不 要 全 部 计算 NV 个 和 然后 排序 ， 而 是 创建 
一 个 最 小 优先 队列 , 初始 状态 为 (03 0, 0),(1, 1, 0),23 2, 0)…(CV, N, 0)。 这样 只 要 优先 队列 非 空 ， 
删除 并 打印 最 小 的 元 素 (i 六, i, 让。 然后 如 果 j<N， 持 入 元 素 (i+0+1), ,+1)。 用 这 段 程序 找 出 
0 到 10' 之 间 所 有 满足 qi+b =c tq 的 不 同 整数 ab,c,d。 

2.4.26 无 需 交 换 的 堆 。 因 为 sink() 和 swimG) 中 都 用 到 了 初级 函数 exch(C) ， 所 以 所 有 元 素 都 被 多 加 载 

并 存储 了 一 次 。 回 避 这 种 低 效 方式 ， 用 插入 排序 给 出 新 的 实现 (请 见 练习 2.1.25 ) 。 

2.4.27 找 出 最 小 元 素 。 在 MaxPQ 中 加 入 一 个 ming 方法 。 你 的 实现 所 需 的 时 间 和 空间 都 应 该 是 常数 。 


2.4.28 选择 过 滤 。 编 写 一 个 TopM 的 用 例 ， 从 标准 输入 读 入 坐标 (x, y, z)， 从 命令 行 得 到 值 M， 然 后 打 “31 


印 出 距离 原点 的 欧 几 里 得 距离 最 小 的 M 个 点 。 在 NF10 且 WE10 时 ,预计 程序 的 运行 时 间 。 
2.4.29 同时 面向 最 大 和 最 小 元 素 的 优先 队列 。 设 计 一 个 数据 类 型 ， 支 持 如 下 操作 : 插入 元 素 、 删 除 最 
大 元 素 、 删 除 最 小 元 素 (所 需 时 间 均 为 对 数 级 别 ) ， 以 及 找到 最 大 元 素 、 找 到 最 小 元 素 ( 所 需 
时 间 均 为 常数 级 别 ) 。 提 示 : 用 两 个 堆 。 
2.4.30 动态 中 位 数 查找 。 设 计 一 个 数据 类 型 ， 支 持 在 对 数 时 间 内 插 人 和 人 元素， 常数 时 间 内 找到 中 位 数 并 在 
对 数 时 间 内 删除 中 位 数 。 提 示 : 用 一 个 面向 最 大 元 素 的 堆 再 用 一 个 面向 最 小 元 素 的 堆 。 
2.4.31 快速 插入 。 用 基于 比较 的 方式 实现 MinPQ 的 API， 使 得 插入 元 素 需 要 ~ loglogN 次 比较 ， 删 除 
最 小 元 素 需 要 ~2logN 次 比较 。 提 示 : 在 swim() 方法 中 用 二 分 查找 来 寻找 祖先 结 点 。 
2.4.32 下 界 。 请 证 明 ， 不 存在 一 个 基于 比较 的 对 MinPQ 的 API 的 实现 能 够 使 得 插入 元 素 和 删除 最 小 元 
素 的 操作 都 保证 只 使 用 ~NloglogN 次 比较 。 
2.4.33 ”索引 优先 队列 的 实现 ,按照 2.4.4.6 节 的 描述 修改 算法 2.6 来 实现 索引 优先 队列 API 中 的 基本 操作 : 
使 用 pq[] 保存 索引 ， 添 加 一 个 数组 keys[] 来 保存 元 素 ， 再 添加 一 个 数组 qp[] 来 保存 pq[] 的 
逆序 一 一 qp[i] 的 值 是 i 在 pq[] 中 的 位 置 ( 即 索 引 j，pq[j]=i ) 。 修 改 算法 2.6 的 代码 来 维护 
这 些 数据 结构 。 若 i 不 在 队列 之 中 ， 则 总 是 令 qp[i] = -1 并 添加 一 个 方法 contains () 来 检测 


这 种 情况 。 你 需要 修改 辅助 函数 exch() 和 less() ， 但 不 需要 修改 sink() 和 swim()。 332 


public class IndexMinPQ<Key extends Comparable<Key>> 


{ 

private int N; // PQ 中 的 元 素数 量 
private int[] pq; // 索引 二 又 堆 ， 由 1 开始 
private int[] qp; // 逆序 : qp[pq[i]] = pq[qp[i]] = i 
private Key[] keys; // 有 优先 级 之 分 的 元 素 
public IndexMinPQCint maxN) 
{ 

keys = (Key[]) new Comparable[maxN + 1]; 

pq = new int[maxN + 1]; 

dp = new int[maxN + 1]; 

for (Cint 1 = 0; i <= maxN; i++) qp[i] = -1; 


} 


public boolean isEmpty() 
{ return N == 0; +} 


public boolean contains(int k) 
{ return qp[k] != -1; } 
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public void insert(int k, Key key) 


{ 
N++; 
qp[k] = N 
pq[N] = k; 
keys[k] = 
swim(N); 


} 


public Key minO 
{ return keys[pq[1]]; } 


public int delMin() 

{ 
int indexOfMin = pq[1]; 
exch(1, N--); 
sink(1); 
keys[pq[N+1]] = null; 
qp[pq[N+1]] = -1; 
return indexOfMin; 


} 


2.4.34 索引 优先 队列 的 实现 (附加 操作 ) 。 向 练习 2.4.33 的 实现 中 添加 minIndex()、change() 和 


2.4.35 


delete() 方法 。 
解答 : 
public int minIndex() 


{ return pq[1]; } 


public void change(int k, Key Key) 
{ 

keys[k] = key; 

swim(qp[k]); 

sink(qp[k]); 
} 


public void delete(int k) 
{ 
int index = qp[k]; 
exch(index, N--); 
swimCindex) ; 
sinkCindex) ; 
keys[k] = null; 
qp[k] = -1; 
} 


离散 概率 分 布 的 取样 。 编 写 一 个 Sample 类 ， 其 构造 函数 接受 一 个 double 类 型 的 数组 p[] 作为 


参数 并 支持 以 下 操作 : random() 一 一 返 


回 任 意 索引 及 其 概率 p[i]/T (T 是 p[] 中 所 有 元 素 之 


和 ) ; change(i，v) 一 一 将 p[ 让 的 值 修改 为 v。 提示: 使 用 完全 二 义 树 ， 每 个 结 点 对 应 一 个 
权重 p[i] 。 在 每 个 结 点 记录 其 下 子 树 的 权重 之 和 。 为 了 产生 一 个 随机 的 索引 ， 取 0 到 本 之 间 的 
一 个 随机 数 并 根据 各 个 结 点 的 权重 之 和 来 判断 沿 着 哪 条 子 树 搜索 下 去 。 在 更 新 p[i] 时 ， 同 时 更 
新 从 根 结 点 到 i 的 路 径 上 的 所 有 结 点 。 不 要 像 堆 的 实现 那样 显 式 使 用 指针 。 
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2.4.36 ”性 能 测试 1T。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 用 删除 最 大 元 
素 操 作 删 去 一 半 元 素 ， 再 用 播 入 元 素 操作 填 满 优先 队列 ， 再 用 删除 最 大 元 素 操作 删 去 所 有 元 素 。 

用 一 列 随机 的 长 短 不 同 的 元 素 多 次 重复 以 上 过 程 ， 测 量 每 次 运行 的 用 时 ， 打 印 平均 用 时 或 是 将 

其 绘制 成 图 表 。 

2.4.37 ”性 能 测试 IJ。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 在 一 秒 钟 之 内 
尽 可 能 多 地 连续 反复 调用 删除 最 大 元 素 和 播 入 元 素 的 操作 。 用 一 列 随 机 的 长 短 不 同 的 元 素 多 次 
重复 以 上 过 程 ， 将 程序 能 够 完成 的 删除 最 大 元 素 操 作 的 平均 次 数 打印 出 来 或 是 绘 成 图 表 。 

2.4.38 练习 测试 。 编 写 一 个 练习 用 例 ， 用 算法 2.6 中 实现 的 优先 队列 的 接口 方法 处 理 实际 应 用 中 可 能 
出 现 的 高 难度 或 是 极端 情况 。 例 如 ， 元素 已 经 有 序 、 元 素 全 部 逆序 、 元 素 全 部 相同 或 是 所 有 元 
素 只 有 两 个 值 。 

2.4.39 ”构造 函数 的 代价 。 对 于 N=10;、10s 和 10”， 根 据 经 验 判 断 堆 排序 时 构造 堆 占 总 耗 时 的 比例 。 

2.4.40 Floyd 方法 。 根据 正 文中 Floyd 的 先 沉 后 浮 思 想 实 现 堆 排 序 。 对 于 N=10 、10" 和 10 大 小 的 随机 
不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 次 数 。 

2.4.41 Multiway 堆 。 根 据 正文 中 的 描述 实现 基于 完全 堆 有 序 的 三 又 树 和 四 叉 树 的 堆 排 序 。 对 于 
A=10 、10' 和 10" 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 
比较 次 数 。 

2.4.42 堆 的 前 序 表示 。 用 前 序 法 而 非 级 别 表示 一 棵 堆 有 序 的 树 ， 并 基于 此 实现 堆 排序 。 对 于 N=10、 

10" 和 10" 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 
次 数 。 335 
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2.5 ”应 用 


排序 算法 和 优先 队列 在 许多 场景 中 有 着 广泛 的 应 用 。 本 节 中 我 们 将 简要 地 浏览 一 遍 这 些 应 用 ， 
研究 如 何 能 让 我 们 已 经 学 习 过 的 高 效 算 法 在 这 些 应 用 中 大 展 身 手 ， 然 后 讨论 一 下 应 该 如 何 使 用 我 们 
的 排序 和 优先 队列 的 代码 。 

排序 如 此 有 用 的 一 个 主要 原因 是 ， 在 一 个 有 序 的 数组 中 查找 一 个 元 素 要 比 在 一 个 无 序 的 数 
组 中 查找 简单 得 多 。 人 们 用 了 一 个 多 世纪 发 现在 一 本 按 姓 氏 排序 的 电话 黄页 中 查找 某 个 人 的 
电话 号 码 最 容易 。 现 在 ， 数 字音 乐 作家 们 将 歌曲 文件 按照 作家 名 或 是 歌曲 名 排序 ， 搜 索引 擎 
按照 搜索 结果 的 重要 性 的 高 低 显 示 结 果 ， 电 子 表 格 按照 某 一 列 的 排序 结果 显示 所 有 栏 ， 和 矩阵 
处 理工 具 将 一 个 对 称 和 矩阵 的 真实 特征 值 按照 降序 排列 ， 等 等 。 只 要 队列 是 有 序 的 ， 很 多 其 他 
任务 也 更 容易 完成 ， 比 如 在 本 书 最 后 的 有 序 索 引 中 查找 某 项 ， 或 是 从 一 列 长 长 的 邮件 列表 或 
者 投票 人 列表 或 者 网 站 列表 中 删 去 重复 项 ， 或 是 在 统计 学 计算 中 剔除 异常 值 、 查 找 中 位 数 或 
者 计算 比例 。 

在 许多 看 似 无 关 的 领域 中 ， 排 序 其 实 仍然 是 一 个 重要 的 子 问 题 。 数 据 压缩 、 计 算 机 图 形 学 、 计 
算 生 物 学 、 供 应 链 管 理 、 组 合 优化 、 社 会 选择 和 投票 等 ， 不 一 而 足 。 我 们 在 本 章 中 学 习 的 算法 也 在 
开发 本 书 其 他 章节 的 强大 算法 的 过 程 中 起 到 了 关键 作用 。 
通用 排序 算法 是 最 重要 的 ， 因 此 我 们 首先 会 考虑 一 些 在 构建 适用 于 多 种 情况 的 排序 算法 时 需要 
注意 的 实际 问题 。 虽 然 部 分 话题 只 适用 于 Java， 但 每 个 问题 都 仍然 是 所 有 系统 需要 解决 的 。 

我 们 的 主要 目的 是 为 了 说 明 ， 尽管 我 们 所 学 习 的 各 种 算法 的 思想 相对 简单 ， 但 它们 的 适用 
领域 仍然 广泛 。 经 过 验证 的 各 种 排序 算法 的 应 用 列表 很 长 ,我们 在 这 里 只 会 涉及 其 中 的 一 小 部 分 ， 
一 些 是 科学 领域 的 ， 一 些 是 算法 领域 的 ， 还 有 一 些 是 商业 领域 的 。 在 练习 中 你 们 还 能 找到 更 多 
例子 ， 本 书 的 网 站 上 还 有 更 多 。 另 外 ， 为 了 更 好 的 说 明 问 题 ， 后 续 章 节 还 会 不 时 地 引用 本 章 的 
内 容 ! 


2.5.1 将 各 种 数据 排序 

我 们 的 实现 的 排序 对 象 是 由 实现 了 Comparable 接口 的 对 象 组 成 的 数组 。Java 的 约定 使 得 我 
们 能 够 利用 Java 的 回调 机 制 将 任意 实现 了 Comparab1e 接口 的 数据 类 型 排序 。 如 2.1 节 所 述 ， 实 现 
Comparable 接口 只 需要 定义 一 个 compareTo() 函数 并 在 其 中 定义 该 数据 类 型 中 的 大 小 关系 。 我 们 
的 代码 直接 能 够 将 String、Integer、Double 和 一 些 其 他 例如 File 和 URL 类 型 的 数组 排序 ， 
为 它们 都 实现 了 Comparable 接口 。 同 一 段 代 码 能 够 适应 所 有 这 些 类 型 的 数据 是 非常 方便 的 ， 但 一 
般 的 应 用 程序 中 需要 排序 的 数据 类 型 都 是 应 用 程序 自己 定义 的 。 相 应 ， 在 自 定义 的 数据 类 型 中 实现 
一 个 compareTo() 方法 也 是 很 常见 的 ， 这 样 就 实现 了 Comparable 接口 ， 也 就 使 得 这 种 数据 类 型 
可 以 被 排序 了 (也 可 以 用 其 构造 优先 队列 ) 。 
2.5.1.1 ”交易 事务 

排序 算法 的 一 种 典型 应 用 就 是 商业 数据 处 理 。 例 如 ， 设 想 一 家 互联 网 商业 公司 为 每 笔 交 易 记录 
都 保存 了 所 有 的 相关 信息 ， 包 括 客户 名 、 日 期 、 金 额 等 。 如 今 ， 一 家 成 功 的 商业 公司 需要 能 够 处 理 
数 百 万 的 这 种 交易 数据 。 如 我 们 在 练习 2.1.21 中 看 到 的 ， 一 种 合适 的 方法 是 将 交易 记录 按 金 额 大 小 
排序 ， 我 们 在 类 的 定义 中 实现 一 个 恰当 的 compareTo0) 方法 就 可 以 做 到 这 一 点 。 这 样 我 们 在 处 理 
Transaction 类 型 的 数组 a[] 时 就 可 以 先 将 其 排序 ， 比 如 这 样 Quick.sort(Ca)。 我 们 的 排序 算法 
对 Transaction 类 型 一 无 所 知 ， 但 Java 的 Comparable 接口 使 我 们 可 以 为 该 类 型 定义 大 小 关系 ， 
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这 样 我 们 的 任意 排序 算法 都 能 够 用 于 Transaction 对 象 了 。 或 者 我 们 也 可 以 令 Transaction 对 象 
按照 日 期 排序 ( 如 下 面 的 代码 所 示 ) ,将 compareTo0 方法 实现 为 比较 Date 字段 。 因 为 Date 对 
象 本 身 也 实现 了 Comparable 接口 ， 我 们 可 以 直接 调用 它 的 compareToQ 方法 而 不 用 自己 实现 了 。 
将 这 种 类 型 按照 用 户 名 排序 也 是 合理 的 。 使 算法 的 用 例 能 够 灵活 地 用 不 同 的 字段 排序 则 是 我 们 在 稍 
后 将 要 面 对 的 另 一 项 有 趣 的 挑战 。 


public int compareTo(Transaction that) 
{ return this.when.compareTo(that.when); 了 


将 交易 记录 按照 日 期 排序 的 compareTo() 方 法 
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2.5.1.2 ”指针 排序 

我 们 使 用 的 方法 在 经 典 教材 中 被 称 为 指针 排序 , 因为 我 们 只 处 理 元 素 的 引用 而 不 移动 数据 本 身 。 
在 其 他 编程 语言 例如 C 和 C++ 之 中 ,程序 员 需 要 明确 地 指出 操作 的 是 数据 还 是 指向 数据 的 指针 ， 
而 在 Java 中 ， 指 针 操 作 是 隐 式 的 。 除 了 原始 数字 类 型 之 外 ， 我 们 操作 的 总 是 数据 的 引用 ( 指针 ) ， 
而 非 数 据 本 身 。 指 针 排 序 增加 了 一 层 间 接 性 , 因为 数组 保存 的 是 待 排 序 的 对 象 的 引用 , 而 非 对 象 本 身 。 
我 们 会 简要 讨论 一 些 相 关 的 问题 。 对 于 多 个 引用 数组 ， 我 们 可 以 将 同一 组 数据 的 不 同 部 分 按照 多 种 
方式 排序 ( 可 能 会 用 到 下 面 提 到 的 多 键 ) 。 
2.5.1.3 不 可 变 的 键 

如 果 在 排序 后 用 例 还 能 够 修改 键 值 ， 那 么 数组 就 很 可 能 不 再 是 有 序 的 了 。 类 似 ， 优 先 队 列 在 
用 例 能 够 修改 键 值 的 情况 下 也 不 太 可 能 正常 工作 。 在 Java 中 ， 可 以 用 不 可 变 的 数据 类 型 作为 键 来 
避免 这 个 问题 。 大 多 数 你 可 能 用 作 键 的 数据 类 型 ， 例 如 String、Integer 、Double 和 File 都 是 
不 可 变 的 。 
2.5.1.4 ”廉价 的 交换 

使 用 引用 的 另 一 个 好 处 是 我 们 不 必 移 动 整 个 元 素 。 对 于 元 素 大 而 键 小 的 数组 来 说 这 带 来 的 节 
约 是 巨大 的 ， 因 为 比较 只 需要 访问 元 素 的 一 小 部 分 ， 而 排序 过 程 中 元 素 的 大 部 分 都 不 会 被 访问 到 。 
对 于 几乎 任意 大 小 的 元 素 ， 使 用 引用 使 得 在 一 般 情 况 下 交换 的 成 本 和 比较 的 成 本 几乎 相同 (代价 
是 需要 额外 的 空间 存储 这 些 引 用 ) 。 如 果 键 值 很 长 ， 那 么 交换 的 成 本 甚至 会 低 于 比较 的 成 本 。 研 
究 将 数字 排序 的 算法 性 能 的 一 种 方法 就 是 观察 其 所 需 的 比较 和 交换 总 数 ， 因 为 这 里 隐 式 地 假设 了 
比较 和 交换 的 成 本 是 相同 的 。 由 此 得 出 的 结论 则 适用 于 Java 中 的 许多 应 用 ， 因 为 我 们 都 是 在 将 引 
排序。 
2.5.1.5 ”多 种 排序 方法 

在 很 多 应 用 中 我 们 都 希望 根据 情况 将 一 组 对 象 按照 不 同 的 方式 排序 。Java 的 Comparator 接 
口 允许 我 们 在 一 个 类 之 中 实现 多 种 排序 方法 。 它 只 有 一 个 compare() 方法 来 比较 两 个 对 象 。 如 果 
一 种 数据 类 型 实现 了 这 个 接口 ， 我 们 可 以 像 2.5.1.6 节 中 的 例子 那样 将 另 一 个 实现 了 Comparator 
接口 的 对 象 传 递 给 sortQ 〇 方法 (sort() 再 将 其 传递 给 1ess() ) 。Comparator 接口 允许 我 们 
为 任意 数据 类 型 定义 任意 多 种 排序 方法 。 用 Comparator 接口 来 代替 Comparable 接口 能 够 更 好 
地 将 数据 类 型 的 定义 和 两 个 该 类 型 的 对 象 应 该 如 何 比较 的 定义 区 分 开 来 。 事 实 上 ， 比 较 两 个 对 象 ”|338 
的 确 可 以 有 多 种 标准 ，Comparator 接口 使 得 我 们 能 够 在 其 中 进行 选择 。 例 如 ， 想 在 忽略 大 小 写 
的 情况 下 将 字符 串 数组 a[] 排序 ， 可 以 使 用 Java 的 String 类 型 中 定义 的 CASE_INSENSITVE_ 


216 区 第 2 章 排 序 


339 


ORDER 比较 器 并 调用 
确定 义 的 字符 串 排 序 
很 多 比较 器 。 

2.5.1.6 ”多 键 数 组 


Insertion.sort(a，String.CASE_INSENSITIVE_ORDER) 。 你 也 知道 ， 精 
规则 十 分 复杂 ， 而 各 种 自然 语言 又 差异 很 大 ， 所 以 Java 的 String 类 型 含有 


一 般 在 应 用 程序 中 ， 一 个 元 素 的 多 种 属性 都 可 能 被 用 作 排 序 的 键 。 在 交易 的 例子 中 ， 有 时 
we 户 排序 〈( 例如 ， 找 出 每 个 客户 进行 的 所 有 交易 ) ; 有 时 又 可 能 需要 按 


照 金额 排序 ( 例如 ， 
实现 这 文 种 灵活 性 ，C 


需要 找 出 交易 金额 较 高 的 交易 ) ; 有 时 还 可 能 用 另 一 个 属性 来 排序 。 要 
omparator 接口 正 合 适 。 我 们 可 以 定义 多 种 比较 右 ， 如 2.5.1.7 节 展 示 的 


Transaction 类 的 男 一 种 实现 那样 。 在 这 样 定义 之 后 ， 要 将 Transaction 对 象 的 数组 按照 时 


间 排 序 可 以 调用 : 
Insertion.sort 
或 者 这 样 来 按照 金额 


Insertion.sort 


(a, new Transaction.WhenOrderO) 


排序 : 


(a, new Transaction.HowMuchOrder O) 


sort() 方法 在 每 次 比较 中 都 会 回调 Transaction 类 中 用 例 指定 的 compare0 方法 。 为 了 避免 


如 下 ， 就 像 Java 定义 


每 次 排序 都 创建 一 个 新 的 Comparator 对 象 ， 我 们 使 用 了 pub1ic final 来 定义 这 些 比较 器 〈 代码 


的 CASE_INSENSITIVE_ORDER 一 样 ) 。 


public static void sort(Object[] a, Comparator c) 


{ 


int N = a.length; 
one Nt 


for 


(int ] = 1; j > 0 && less(Comparator, a[j], a[lj-1]); j--) 


exChCan ee 


} 


private static boolean less(Comparator c, Object v, Object w) 


{ return 


c.compare(v, w) < 0; } 


private static void exch(Object[] a, int i, int j) 


{ Object 


C= a a 


使 用 了 Comparator 的 插入 排序 


2.5.1.7 ”使 用 比较 器 实现 优先 队列 


支持 比较 带 : 


作为 参数 并 用 


实现 代码 如 下 : 


比较 器 的 灵活 性 也 可 以 用 在 优先 队列 上 。 我 们 可 以 按照 以 下 步骤 来 扩展 算法 2.6 的 标准 实现 来 


口 导入 java.uti1.Comparator; 
口 为 MaxPQ 添加 一 个 实例 变量 comparator 以 及 一 个 构造 函数 ， 该 构造 函数 接受 一 个 比较 带 


它 将 comparator 初始 化 ; 


口 在 1less(Q 中 检查 comparator 属性 是 否 为 nul1 (如果 不 是 的 话 就 用 它 进行 比较 ) 。 
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import java.util.Comparator; 


public class Transaction 


上 


private final String who; 
private final Date when; 
private final double amount; 


public static class WhoOrder implements Comparator<Transaction> 
public int compare(Transaction v, Transaction w) 
{ return v.who.compareTo(w.who); 了 


. 


public static class WhenOrder implements Comparator<Transaction> 
{ 

public int compare(Transaction v, Transaction w) 

{ return v.when.compareTo(w.when); 了 


1 


public static class HowMuchOrder implements Comparator<Transaction> 
{ 
public int compare(Transaction v, Transaction w) 
FE 
if (v.amount < w.amount) return -1; 
if (v.amount > w.amount) return +1; 
return 0; 
} 
} 


使 用 了 Comparator 的 插入 排序 


例如 ， 修 改 后 可 以 使 用 Transaction 的 多 种 字段 构造 不 同 的 优先 队列 ， 分别 按照 时 间 、 地 点 、 
账号 排序 。 如 果 你 在 MinPQ 中 去 掉 了 Key extends Comparable<Key> 这 句 话 ， 甚 至 可 以 支持 尚 
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2.5.1.8 稳定 性 

如 果 一 个 排序 算法 能 够 保留 数组 中 重复 元 素 的 相对 位 置 则 可 以 被 称 为 是 稳定 的 。 这 个 性 质 在 许 
多 情况 下 很 重要 。 例 如 ， 考 虑 一 个 需要 处 理 大量 含 有 地 理 位 置 和 时 间 截 的 事件 的 互联 网 商业 应 用 程 
序 。 首 先 ， 我 们 在 事件 发 生 时 将 它们 挨个 存储 在 一 个 数组 中 ， 这 样 在 数组 中 它们 已 经 是 按照 时 间 顺 
序 排 好 了 的 。 现 在 假设 在 进一步 处 理 前 将 按照 地 理 位 置 切 分 。 一 种 简单 的 方法 是 将 数组 按照 位 置 排 
序 。 如 果 排 序 算 法 不 是 稳定 的 ， 排 序 后 的 每 个 城市 的 交易 可 能 不 会 再 是 按照 时 间 顺 序 排列 的 了 。 很 
多 情况 下 ， 不 熟悉 排序 稳定 性 的 程序 员 在 第 一 次 遇见 这 种 情形 时 会 惊讶 于 不 稳定 的 排序 算法 似乎 把 
数据 弄 得 一 团 糟 。 在 本 章 中 ， 我 们 学 习 过 的 一 部 分 算法 是 稳定 的 (插入 排序 和 归并 排序 ) ， 但 很 多 
不 是 ( 选择 排序 、 希 尔 排 序 、 快 速 排序 和 堆 排 序 ) 。 有 很 多 办 法 能 够 将 任意 排序 算法 变 成 稳定 的 (请 
见 练习 2.5.18 ) ， 但 一 般 只 有 在 稳定 性 是 必要 的 情况 下 稳定 的 排序 算法 才 有 优势 。 人 们 很 容易 觉得 
算法 具有 稳定 性 是 理所当然 的 ， 但 事实 上 没有 任何 实际 应 用 中 常见 的 方法 不 是 用 了 大 量 额 外 的 时 间 
和 空间 才 做 到 了 这 一 点 ( 研究 人 员 开 发 了 这 样 的 算法 , 但 应 用 程序 员 发 现 它 们 太 复 杂 了 , 无 法 使 用 ) 。 

从 另 一 个 键 上 排序 的 稳定 性 如 图 2.5.1 所 示 。 
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按照 时 间 排 序 
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Chicago 
Chicago 
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Phoenix 
Phoenix 
Phoenix 
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Seattle 
Seattle 
Seattle 
Seattle 


图 2.5.1 


2.5.2 ”我 应 该 使 用 哪 种 排序 算法 


在 本 章 中 我 们 学 习 了 许多 种 排序 算法 ， 这 个 问 


取决 于 它 的 应 


| 场景 和 具体 实现 ,但 我 们 也 学 习 了 一 些 通用 


佳 算法 接近 的 性 能 。 


表 2.5.1 总 结 了 在 本 华中 我 们 学 习 过 的 排序 算法 的 各 种 重要 性 质 。 除 了 希 尔 排序 
插入 排序 ( 它 的 复杂 度 取决 于 输入 元 素 的 排列 情况 ) 和 快速 排序 的 
们 的 复杂 度 和 概率 有 关 ， 取 决 于 输入 元 素 的 分 布 情况 ) 之 外 ， 将 这 些 运 


只 是 一 | 个 近似 ) 、 


09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
09 : 
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09 : 
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09 : 
09 : 
09 : 
09 : 


从 另 一 个 键 上 排序 的 稳定 


按照 地 理 位 置 排序 〈 稳 定 ) 


(不 稳定 ) 

25:52 Chicago 
03:13 Chicago 
21:05 Chicago 
19:46 Chicago 
19:32 Chicago 
00:00 Chicago 
35:521 Chicago 
00:59 Chicago 
01:10 Houston 
00:13 不 再 时 Houston 
37:44 间 有 序 Phoenix 
00:03 Phoenix 
14:25 Phoenix 
10:25 Seattle 
36:14 Seattle 
22:43 Seattle 
10:11 Seattle 
22:54 Seattle 
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题 就 变 和 
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00 : 
03: 
19 : 
19 : 
21:05 
25:52 
35:21 
| 
01:10 
00:03 
14:25 
37:44 
10:11 
10:25 
22:43 
22:54 
36:14 


00 
59 
13 
32 
46 


仍然 时 
间 有 序 


导 很 自然 了 。 排 序 算法 的 好 坏 很 大 程度 上 


NE 


和 运 人 


的 算法 ， 它 们 能 在 很 多 情况 下 达到 和 最 


它 的 复杂 度 
两 个 版 本 ( 它 
时 间 的 增长 数量 级 乘 以 适 


当 的 常数 就 能 够 大 致 舍 计 出 其 运行 时 间 。 这 里 的 常数 有 时 和 算法 有 关 《〈 比如 堆 排 序 的 比较 次 数 是 归 


并 排序 的 两 倍 ， 且 


译 器 以 及 你 的 计算 机 ， 这 些 因素 决定 了 需要 执行 的 机 器 指令 的 数量 
最 重要 的 是 ， 因 为 这 些 都 是 常数 ， 
较 大 的 V 所 需 的 运行 时 间 。 


两 者 访问 数组 的 次 数 都 比 快速 排序 多 得 多 ) 


， 但 主要 取决 于 算法 的 实现 、Java 编 
以 及 每 条 指令 所 需 的 执行 时 间 。 
你 能 通过 较 小 的 Y 得 到 的 实验 数据 和 我 们 的 标准 双 倍 测试 来 推测 


表 2.5.1 各 种 排序 算法 的 性 能 特点 
将 N 个 元 素 排序 的 复杂 度 
算 ; 是 否 稳定 ” 是 否 为 原 地 排序 注 
算 法。 是否 稳定 是 否 为 原 地 排序 一 和 站 页 末 度 ”” 向 复 认 度 备 
选择 排序 否 是 x¥ 1 
插入 排序 是 是 介 于 N 和 之 间 1 取决 于 输入 元 素 的 排列 情况 
希 尔 排序 否 是 1 
快速 排序 否 是 NogN lgN ”运行 效率 由 概率 提供 保证 
二 向 快 羔 排 有 介 于 NN 和 NlogN 运行 效率 由 概率 保证 ， 同 时 也 
三 向 快速 排序 丰 是 之 间 leN 取决 于 输入 元 素 的 分 布 情况 
归并 排 是 否 NlogN N 
堆 排 序 否 是 NlogN 1 
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性 质 T。 快 速 排序 是 最 快 的 通用 排序 算法 。 


例证 。 自 从 数 十 年 前 快速 排序 发 明 以 来 ， 它 在 无 数 计算 机 系统 中 的 无 数 实现 已 经 证 明了 这 一 点 。 
总 的 来 说 ， 快 速 排序 之 所 以 最 快 是 因为 它 的 内 循环 中 的 指令 很 少 (而 且 它 还 能 利用 缓存 ， 因 为 
它 总 是 顺序 地 访问 数据 ) ， 所 以 它 的 运行 时 间 的 增长 数量 级 为 ~cNlgN， 而 这 里 的 c 比 其 他 线性 
对 数 级 别 的 排序 算法 的 相应 常数 都 要 小 。 在 使 用 三 向 切 分 之 后 ， 快 速 排序 对 于 实际 应 用 
出 现 的 某 些 分 布 的 输入 变 成 线性 级 别 的 了 ， 而 其 他 的 排序 算法 则 仍然 需要 线性 对 数 时 间 。 


- 生 
< 可 
司 


因此 ， 在 大 多 数 实际 情况 中 ,快速 排序 是 最 佳 选择 。 当 然 ， 面 对 多 种 排序 方法 和 各 式 计算 
机 及 系统 ， 这 人 么 一 句 干 巴巴 的 话 很 难 让 人 信服 。 例 如 ， 我 们 已 经 见 过 一 个 明显 的 例外 :如果 稳 定 
性 很 重要 而 空间 又 不 是 问题 ， 归 并 排序 可 能 是 最 好 的 。 我 们 会 在 第 5 章 中 见 到 更 多 例外 。 有 了 
SortCompare 这 样 的 工具 ， 再 加 上 一 点 时 间 和 努力 ， 你 能 够 更 仔细 地 比较 这 些 算法 的 性 能 并 实现 我 
们 讨论 过 的 各 种 改进 方案 ， 详 见 本 节 最 后 的 若干 练习 。 也 许 证 明 性 质 工 的 最 好 方式 正如 这 里 所 说 ， 
在 运行 时 间 至 关 重 要 的 任何 排序 应 用 中 认真 地 考虑 使 用 快速 排序 。 
2.5.2.1 将 原始 类 型 数据 排序 

一 些 性 能 优先 的 应 用 的 重点 可 能 是 将 数字 排序 ， 因 此 更 合理 的 做 法 是 跳 过 引用 直接 将 原始 数据 
类 型 的 数据 排序 。 例 如 ， 想 想 将 一 个 double 类 型 的 数组 和 一 个 Double 类 型 的 数组 排序 的 差别 。 
对 于 前 者 我 们 可 以 直接 交换 这 些 数 并 将 数组 排序 ， 而 对 于 后 者 ， 我 们 交换 的 是 存储 了 这 些 数字 的 
Double 对 象 的 引用 。 如 果 我 们 只 是 在 将 一 大 组 数 排序 的 话 ， 跳 过 引用 可 以 为 我 们 节省 存储 所 有 引 
j 所 需 的 空间 和 通过 引用 来 访问 数字 的 成 本 ， 更 不 用 说 那些 调用 compareTo() 和 1ess 0) 方法 的 
开销 了 。 把 Comparable 接口 蔡 换 为 原始 数据 类 型 名 ， 重 定义 less 0) 方法 或 者 干脆 将 调用 1ess 0) 
的 地 方 奉 换 为 a[i] < a[j] 这 样 的 代码 ,我 们 就 能 得 到 可 以 将 原始 数据 类 型 的 数据 更 快 地 排序 的 
各 种 算法 (请 见 练习 2.1.26 ) 。 
2.5.2.2 Java 系统 库 的 排序 算法 

为 了 演示 表 2.5.1 所 示 的 数据 ， 这 里 我 们 考虑 Java 系统 库 中 的 主要 排序 方法 java.util. 
Arrays.sort()。 根 据 不 同 的 参数 类 型 ， 它 实际 上 代表 了 一 系列 排序 方法 : 
口 每 种 原始 数据 类 型 都 有 一 个 不 同 的 排序 方法 ; 
口 一 个 适用 于 所 有 实现 了 Comparable 接口 的 数据 类 型 的 排序 方法 ; 
口 一 个 适用 于 实现 了 比较 右 Comparator 的 数据 类 型 的 排序 方法 。 

Java 的 系统 程序 员 选 择 对 原始 数据 类 型 使 用 ( 三 向 切 分 的 ) 快速 排序 ， 对 引用 类 型 使 用 归并 排 
序 。 这 些 选 择 实际 上 也 暗示 着 用 速度 和 空间 ( 对 于 原始 数据 类 型 ) 来 换取 稳定 性 (对 于 引用 类 型 ) ， 
如 刚才 讨论 的 那样 。 

我 们 讨论 过 的 这 些 算法 和 思想 是 包括 Java 的 许多 现代 系统 的 核心 组 成 部 分 。 当 为 实际 应 用 开发 
Java 程序 时 ， 你 会 发 现 Java 的 Arrays.sort() 实现 ( 可 能 再 加 上 你 自己 实现 的 compareToQ 或 者 
compare() ) 已 经 基本 够 用 了 ， 因 为 它 使 用 的 三 向 快速 排序 和 归并 排序 都 是 经 典 。 

在 本 书 中 我 们 一 般 都 会 使 用 我 们 自己 的 Quick.sortQ 或 者 Merge.sort() (在 稳定 性 比 空间 更 
重要 时 ) 。 你 也 可 以 使 用 Arrays.sort(), 或 者 在 特殊 的 情况 下 使 用 其 他 排序 算法 。 


2.5.3 ”问题 的 归 约 
使 用 排序 算法 来 解决 其 他 问题 的 思想 是 算法 设计 领域 的 基本 技巧 一 一 归 约 的 一 个 例子 。 因 为 归 
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约 十 分 重要 ， 我 们 会 在 第 6 章 详细 讨论 它 ， 同 时 研究 几 个 具体 实例 。 归 约 指 的 是 为 解决 某 个 问题 而 
发 明 的 算法 正好 可 以 用 来 解决 另 一 种 问题 。 应 用 程序 员 对 于 归 约 的 概念 已 经 很 熟悉 了 ( 无 论 是 否 明 
确 地 知道 这 一 点 ) 每 次 你 在 使 用 解决 问题 B 的 方法 来 解决 问题 A 时 ,你 都 是 在 将 A 归 约 为 B。 
实际 上 ,实现 算法 的 一 个 目标 就 是 使 算法 的 适用 性 尽 可 能 广泛 , 使 得 问题 的 归 约 更 简单 。 作 为 例子 ， 
我 们 先 看 看 几 个 简单 的 排序 问题 。 很 多 这 种 问题 都 以 算法 测验 的 形式 出 现 ， 而 解决 它们 的 第 一 想法 
往往 是 平方 级 别 的 暴力 破解 。 但 很 多 情况 下 如 果 先 将 数据 排序 ， 那 么 解决 剩 下 的 问题 就 只 需要 线性 
级 别 的 时 间 了 ， 这 样 归 约 后 的 运行 时 间 的 增长 数量 级 就 由 平方 级 别 降低 到 了 线性 对 数 级 别 。 
2.5.3.1 找 出 重复 元 素 : 

在 一 个 Comparable 对 象 的 数组 中 是 和 否 存在 重复 元 素 ” 有 多 少 重 复元 素 ” 哪 个 值 出 现 得 最 频 
繁 ? 对 于 小 数组 ， 用 平方 级 别 的 算法 将 所 有 元 素 互 相 比较 一 遍 就 足以 解答 这 些 问 题 。 但 这 么 做 对 于 
大 数组 行 不 通 。 但 有 了 排序 ， 你 就 能 在 线性 对 数 的 时 间 内 回答 这 些 问 题 : 首先 将 数组 排序 ， 然 后 饥 
历 有 序 的 数组 ， 记 录 连 续 出 现 的 重复 元 素 即 可 。 例如， 下 面 就 是 一 段 统计 数组 中 不 重复 的 元 素 个 数 
的 代码 。 只 要 稍稍 修改 这 有 段 代码 你 就 能 回答 上 面 的 问题 ， 还 可 以 打印 所 有 不 同 元 素 的 值 、 所 有 重复 
元 素 的 值 ， 等 等 ， 即 使 数组 很 大 也 无 妨 。 
2.5.3.2 ”排名 | 

一 组 排列 (或 是 排名 ) 就 是 一 组 六 个 整 人 // 假设 a.length > 0. 
数 的 数组 ， 其 中 0 到 N-1 的 每 个 数 都 只 出 现 ol lng 
一 次 。 两 个 排列 之 间 的 Kendall tau 距离 就 是 i 
在 两 组 数列 中 顺序 不 同 的 数 对 的 数目 。 例 如 ， 

0316254 和 1036425 之 间 的 Kendall tau 统计 a[] 中 不 重复 元 素 的 个 数 

距离 是 4， 因 为 0-1、3-1、2-4、5-4 这 4 对 数 

字 在 两 组 排列 中 的 相对 顺序 不 同 ， 但 其 他 数字 的 相对 顺序 都 是 相同 的 。 这 种 统计 方法 的 应 用 十 分 广 
泛 。 在 社会 学 中 它 被 用 于 人 研究 社会 选择 和 投票 理论 ， 在 分 子 生 物 学 中 被 用 于 使 用 基因 表达 图 谱 比 较 
基因 ， 在 网 络 中 被 用 于 搜索 引擎 结果 的 排名 ， 等 等 。 某 个 排列 和 标准 排列 〈 即 每 个 元 素 都 在 正确 位 
置 上 的 排列 ) 的 Kendall tau 距离 就 是 其 中 逆序 数 对 的 数量 。 根 据 插入 排序 设计 一 个 平方 级 别 的 算法 
来 计算 它 并 不 困难 (请 回想 2.1 节 中 的 命题 C ) 。 高 效 地 计算 Kendall tau 距离 可 以 留 给 已 经 熟悉 那 
些 经 典 的 排序 算法 的 程序 员 (或 者 学 生 ) 作为 一 个 有 趣 的 练习 ( 请 见 练习 2.5.19 ) 。 

2.5.3.3 ”优先 队列 

在 2.4 节 中 我 们 已 经 见 过 两 个 被 归 约 为 优先 队列 操作 的 问题 的 例子 。 一 个 是 2.4.2.1 节 中 的 
TopM， 它 能 够 找到 输入 流 中 M 个 最 大 的 元 素 ; 另 一 个 是 2.4.4.7 节 中 的 Multiway， 它 能 够 将 M 个 
输入 流 归并 为 一 个 有 序 的 输出 流 。 这 两 个 问题 都 可 以 轻易 用 长 度 为 W 的 优先 队列 解决 。 
2.5.3.4 ”中 位 数 与 顺序 统计 

一 个 和 排序 有 关 但 又 不 需要 完全 排序 的 重要 应 用 就 是 找 出 一 组 元 素 的 中 位 数 ( 中 间 值 ， 它 不 大 
于 一 半 的 元 素 又 不 小 于 男 一 半 元 素 ) 。 查 找 中 位 数 在 统计 学 计算 和 许多 数据 人 处理 的 应 用 程序 中 都 很 
常见 。 它 是 一 种 特殊 的 选择 : 找到 一 组 数 中 的 第 大 小 的 元 素 ( 如 下 页 代码 所 示 ) 。“ 选 择 ” 在 处 理 
实验 数据 和 其 他 数据 中 应 用 广泛 ， 使 用 中 位 数 和 其 他 顺序 统计 来 切 分 一 个 数组 也 很 常见 。 一 般 ， 我 
们 只 需要 处 理 一 个 很 大 的 数组 中 的 一 小 部 分 ， 在 这 种 情况 下 ， 一 个 程序 可 以 选择 ， 比 如 将 前 10% 的 
元 素 完全 排序 即 可 。2.4 节 中 我 们 的 TopM 用 优先 队列 为 无 界限 输入 解决 了 这 个 问题 。 除 了 TopM， 
另 一 种 选择 是 直接 将 数组 中 的 元 素 排序 。 在 调用 Quick.sort(a) 之 后 ， 数 组 中 的 个 最 小 的 元 素 
就 是 数组 的 前 个 元 素 ， 其 中 小 于 数组 长 度 。 但 这 种 方法 需要 调用 排序 ， 所 以 运行 时 间 的 增长 数 


量 级 是 线性 对 数 的 。 

还 有 更 好 的 办 法 吗 ?” 当 很 小 或 者 很 大 时 
找 出 数组 中 的 磊 个 最 小 值 都 很 简单 ， 但 当 大 和 数 
组 大 小 成 一 定 比 例 时 这 个 任务 就 变 得 比较 困难 
了 ， 比 如 找到 中 位 数 (三 N/2) 。 让 人 惊讶 的 是 
其 实 上 面 的 select0) 方法 能 够 在 线性 时 间 内 解 
决 这 个 问题 ( 这 个 实现 需要 在 用 例 中 进行 类 型 转 
换 ; 去 掉 这 个 限制 的 代码 请 见 本 书 的 网 站 ) 。 
为 了 完成 这 个 任务 ，select() 用 两 个 变量 hi 
和 1o 来 限制 含有 要 选择 的 元 素 的 子 数 组 ， 并 
用 快速 排序 的 切 分 法 来 缩小 子 数组 的 范围 。 请 
回想 partition() 方法 ， 它 会 将 数组 的 a[1o] 
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public static Comparable 
select(Comparable[] a, int Kk) 


StdRandom. shuffle(a); 

neoOEE 0h sanlengen 

while (hi > 10) 
ne Dantenon Gao 
下 让 (== ketunrnalls 
ellsen nf a= Nh | 
else fe < 


return a[k]; 


找到 一 组 数 中 的 第 /小 元 素 


至 a[hi] 重新 排列 并 返回 一 个 整数 j 使 得 a[1o..j-1] 小 于 等 于 a[j] 且 a[j+l..hi] 大 于 等 


于 a[j]。 那 么 ， 如 果 k = j， 问题 就 解决 了 。 如 及 


j-I) ; 如 果 k > j， 我 们 则 需要 切 分 右 子 数组 ( 令 1o 


Ek < j， 我 们 就 需要 切 分 左 子 数组 ( 令 hi = 


= j+1 ) 。 这 个 循环 保证 了 数组 中 1o 左 


边 的 元 素 都 小 于 等 于 a[lo..hi]， 而 hi 右边 的 元 素 都 大 于 等 于 a[1o..hi]。 我 们 不 断 地 切 分 直 
到 子 数 组 中 只 含有 第 磊 个 元 素 ， 此 时 a[k] 含有 最 小 的 (K+1 ) 个 元 素 ，a[0] 到 a[k-1] 都 小 于 等 
于 a[k]， 而 a[k+1] 及 其 后 的 元 素 都 大 于 等 于 a[k] 。 至 于 为 何 这 个 算法 是 线性 级 别 的 ， 是 因为 
假设 每 次 都 正好 将 数组 二 分 ,那么 比较 的 总 次 数 为 (N+N/2+N/4+N/8… ) ， 直 到 找到 第 大 的 元 素 ， 
这 个 和 显然 小 于 2N。 和 快速 排序 一 样 ， 这 里 也 需要 一 点 数学 知识 来 得 到 比较 的 上 界 ， 它 比 快速 排 
序 略 高 。 这 个 算法 和 快速 排序 的 另 一 个 共同 点 是 这 段 分 析 依赖 于 使 用 随机 的 切 分 元 素 ， 因 此 它 的 


性 能 保证 也 来 自 于 概率 。 


] 快 速 排 序 的 切 分 来 查找 中 位 数 的 可 视 轨 迹 如 图 2.5.2 所 示 。 


命题 U。 平 均 来 说 ， 基 于 切 分 的 选择 算法 的 运行 时 间 是 线性 级 别 的 。 


证 明 。 该 命题 的 分 析 和 和 快速 排序 的 命题 K 的 证 明 类 似 ， 但 要 复杂 得 多 。 结 论 就 是 算法 的 平均 比 
较 次 数 为 ~2MH2Hn(MVD+2(VN-Dln(CV(M- 有 )， 这 对 于 所 有 合法 的 天 值 都 是 线性 的 。 例 如 ， 这 个 
公式 说 明 找 到 中 位 数 (k=N/2) 平均 需要 ~(2+2ln2)N 次 比较 。 注 意 ， 最 坏 的 情况 下 算法 的 运行 时 


间 仍 然 是 平方 级 别 的 ， 但 与 快速 排序 一 样 ， 将 数组 乱 序 化 可 以 有 效 防止 这 种 情况 出 现 。 


设计 一 个 能 够 保证 在 最 坏 情况 下 也 只 需要 线性 比较 次 数 的 算法 是 计算 复杂 性 领域 的 一 个 经 典 问 


题 , 但 到 目前 为 止 仍然 没有 一 个 能 够 实用 的 算法 。 
2.5.4 排序 应 用 一 览 


排序 的 直接 应 用 极为 普遍 和 广泛 ， 无 法 一 一 列举 。 你 可 以 将 歌曲 按照 曲名 或 是 歌手 排序 ， 将 邮 
件 按照 时 间或 是 发 件 人 排序 (或 者 来 电 按照 时 间或 来 电 者 排序 ) ， 将 照片 按照 日 期 排序 。 大 学 会 将 
学 生 的 账户 按照 姓名 或 是 ID 排序 。 信用卡 公 司 会 将 上 百 万 甚至 上 亿 的 交易 按照 日 期 或 是 金额 排序 。 


科学 家 会 将 实验 数据 按照 时 间或 其 他 标准 排序 来 精确 地 模拟 现实 世界 ， 从 粒子 或 者 天 体 的 运动 ， 到 


物质 的 结构 ， 到 社会 中 的 人 际 关 系 。 实 际 上 ， 很 难 找到 和 排序 无 关 的 任何 计算 性 应 


j! 为 了 更 好 地 
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说 明 这 一 点 ， 我 们 在 这 一 小 节 中 举 几 个 比 应 用 归 约 更 加 复杂 
的 例子 , 其 中 几 个 我 们 会 在 本 书 的 其 他 章节 更 加 详细 地 研究 。 
2.5.4.1 商业 计算 

世界 已 经 被 信息 的 海洋 所 淹没 。 政 府 组 织 、 金 融 机 构 和 商 
业 公 司 都 依赖 排序 来 管理 大 量 的 信息 。 无 论 这 些 信 息 是 按照 名 
字 或 者 数字 排序 的 账号 、 按 照 日 期 或 者 金额 排序 的 交易 、 按 照 
邮编 或 者 地 址 排序 的 邮件 、 按 照 名 称 或 者 日 期 排序 的 文件 等 ， 
处 理 这 些 数据 必然 需要 排序 算法 。 一 般 这 些 信 息 都 会 存储 在 大 
型 的 数据 库 里 ， 能 够 按照 多 个 键 排序 以 提高 搜索 效率 。 一 个 普 
遍 使 用 的 有 效 方法 是 先 收集 新 的 信息 并 添加 到 数据 库 ， 将 其 按 
感 兴趣 的 键 排序 ， 然 后 将 每 个 键 的 排序 结果 归并 到 已 存在 的 数据 
库 中 。 从 计算 机 发 明 的 早期 开始 ， 我 们 学 习 过 的 这 些 方法 就 已 经 
被 用 来 构建 庞大 的 基础 数据 ， 处 理 它 们 的 方法 则 是 所 有 这 些 商业 
活动 的 基石 。 今 天 ， 我 们 能 够 按部就班 地 处 理 上 百 万 甚至 上 亿 大 
小 的 数组 一 一 没有 线性 对 数 级 别 的 排序 算法 也 就 没 法 将 它们 排 
序 ， 进 一 步 处 理 这 些 数据 也 会 极端 困难 ， 甚 至 是 不 可 能 的 。 
2.5.4.2 ”信息 搜索 

有 序 的 信息 确保 我 们 可 以 用 经 典 的 二 分 查找 法 ( 见 第 1 
章 ) 来 进行 高 效 的 搜索 。 你 会 看 到 许多 其 他 种 类 的 查询 也 可 
以 用 相同 的 方式 完成 。 有 多 少 元 素 小 于 给 定 的 元 素 ? 有 哪些 
在 给 定 的 范围 之 内 ? 在 第 3 章 中 我 们 不 但 会 解答 这 些 问 题 ， 


一 一 
= 


| 


| 

TT | 
nannn bl. ll 
allllnhillnllanlhllllnnln 

put 

1o i hi 


中 位 数 


图 2.5.2 ”用 切 分 找 出 中 位 数 〈 另 见 
彩 插 ) 


还 会 具体 学 习 排序 算法 和 二 分 查找 的 各 种 扩展 ， 使 得 我 们 能 够 用 删除 和 插入 的 混合 操作 解答 这 些 问 


题 ， 并 保证 所 有 操作 的 对 数 级 别 的 性 能 。 
2.5.4.3 ”运筹 学 


运 著 学 指 的 是 研究 数学 模型 并 将 其 应 用 于 问题 解决 和 决策 的 领域 。 在 本 书 中 我 们 会 看 到 若干 运 


筹 学 和 算法 研究 的 关系 的 例子 。 这 里 我 们 先 来 看 排序 算法 在 运筹 学 的 经 典 问 题 一 一 调度 中 的 应 用 。 


假设 我 们 需要 完成 入 个 任务 , 第 j 个 任务 需要 耗 时 秒 。 我 们 需要 在 完成 所 有 任务 的 同时 尽 
客户 满意 ， 将 每 个 任务 的 平均 完成 时 间 最 小 化 。 按 照 最 短 优 先 的 原则 ， 只 要 我 们 将 任务 按照 处 理 时 


量 确保 


= 


间 升 序 排 列 就 可 以 达到 目标 。 因 此 我 们 可 以 将 任务 按照 耗 时 排序 ， 或 是 将 它们 插入 到 一 个 最 小 优先 


队列 中 。 如 果 加 上 其 他 各 种 限制 ， 我 们 可 以 得 到 不 同 的 调度 问题 ， 


这 在 工业 界 的 应 用 中 很 常见 ， 也 


被 很 好 地 研究 过 。 另 一 个 例子 是 负载 均衡 问题 。 假 设 我 们 有 M 个 相同 的 处 理 絮 以 及 NN 个 任务 ,我 
们 的 目标 是 用 尽 可 能 短 的 时 间 在 这 些 处 理 器 上 完成 所 有 的 任务 。 这 个 问题 是 NP- 困难 的 〈 请 见 第 6 
章 ) ， 因 此 我 们 实际 上 不 可 能 算出 一 种 最 优 的 方案 。 但 一 种 较 优 调度 方法 是 最 大 优先 。 我 们 将 任务 
按照 耗 时 降序 排列 ， 将 每 个 任务 依次 分 配给 当前 可 用 的 处 理 器 。 要 实现 这 种 算法 ， 我 们 先 要 逆序 排 
列 这 些 任务 ， 然 后 为 M 个 处 理 器 维护 一 个 优先 队列 ， 每 个 元 素 的 优先 级 就 是 对 应 的 处 理 器 上 运行 
的 任务 的 耗 时 之 和 。 每 一 步 中 ,我们 都 删 去 优先 级 最 低 的 那个 处 理 器 ， 将 下 一 个 任务 分 配给 这 个 处 


理 髓 ,然后 再 将 它 重新 插入 优先 队列 。 
2.5.4.4 ”事件 驱动 模拟 


很 多 科学 上 的 应 用 都 涉及 模拟 ， 用 大 量 计算 来 将 现实 世界 的 某 个 方面 建 模 以 期 能 够 更 好 地 理解 
它 。 在 计算 机 发 明之 前 ， 科 学 家 们 除了 构建 数学 模型 之 外 别 无 选择 ， 而 现在 计算 机 模型 很 好 地 补充 
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了 这 些 数学 模型 。 通 真 地 模拟 现实 世界 是 很 有 挑战 的 ， 而 使 用 正确 的 算法 使 得 我 们 能 够 在 有 限 的 时 
间 内 完成 这 些 模 拟 ， 而 不 是 无 奈 地 接受 不 精确 的 实验 结果 或 是 无 尽 地 等 待 计算 的 完成 。 我 们 会 在 第 
6 章 中 展示 能 够 说 明 这 一 点 的 一 个 具体 例子 。 
2.5.4.5 数值 计算 

在 科学 计算 中 ， 精 确 度 非常 重要 ( 我们 距离 真正 的 答案 有 多 远 ) ， 特 别 是 当 我 们 在 计算 机 中 使 
用 的 只 是 真正 的 实数 的 近似 值 一 一 浮 点 数 来 进行 上 百 万 次 计算 的 时 候 。 一 些 数值 计算 算法 使 用 优先 
队列 和 排序 来 控制 计算 中 的 精确 度 。 例 如 ， 在 求 曲 线 下 区 域 的 面积 时 ， 数 值 积 分 的 一 个 方法 就 是 使 
用 一 个 优先 队列 存储 一 组 小 间隔 中 每 段 的 近似 精确 度 。 积 分 的 过 程 就 是 删 去 精确 度 最 低 的 间隔 并 将 
其 分 为 两 半 这样 两 半 都 能 变 得 更 加 精确 ) ， 然 后 将 两 半 都 重新 加 入 优先 队列 。 如 此 这 般 ， 直 到 达 
到 预期 的 精确 程度 。 
2.5.4.6 ”组 合 搜索 

人 工 智 能 领域 一 个 解决 “疑难 杂 证 ”的 经 典范 式 就 是 定义 一 组 状态 、 由 一 组 状态 演化 到 另 一 组 
状态 可 能 的 步骤 以 及 每 个 步 又 的 优先 级 ， 然 后 定义 一 个 起 始 状态 和 目标 状态 ( 也 就 是 问题 的 解决 办 
法 ) 。 著 名 的 A* 算法 的 解决 办 法 就 是 将 起 始 状态 放 和 优先 队列 中 ， 然 后 重复 下 面 的 方法 直到 到 达 
目的 地 : 删 去 优先 级 最 高 的 状态 ， 然 后 将 能 够 从 该 状态 在 一 步 之 内 达到 的 所 有 状态 全 部 加 入 优先 队 
列 〈 除 了 刚刚 删 去 的 那个 状态 之 外 ) 。 和 事件 驱动 模拟 一 样 ， 这 个 过 程 简直 就 是 为 优先 队列 量 身 定 
做 的 。 它 将 问题 的 解决 转化 为 了 定义 一 个 适当 的 优先 级 函数 问题 。 例 子 请 见 练习 2.5.32。 

除了 这 些 直接 应 用 之 外 (我们 只 说 了 很 小 的 一 部 分 而 已 ) ， 排 序 和 优先 队列 在 算法 设计 领域 也 
是 很 重要 的 抽象 概念 ， 因 此 本 书 会 经 常用 到 它们 。 下 面 我 们 举 了 一 些 本 书后 续 内 容 中 的 应 用 作为 例 
子 ， 它 们 都 依赖 于 本 章 中 的 排序 算法 和 优先 队列 数据 类 型 的 高 效 实现 。 
口 Prim 算法 和 Dijkstra 算法 


a 


它们 都 是 第 4 章 中 的 经 典 算 法 。 第 4 章 的 主题 是 图 的 处 理 算法 ， 图 是 由 结 点 和 连接 两 个 结 点 的 
边 组 成 的 一 种 重要 的 基础 模型 。 图 算法 的 基石 就 是 图 的 搜索 ， 也 就 是 一 个 结 点 一 个 结 点 地 查找 ， 优 


先 队 列 在 其 中 扮演 了 重要 的 角色 。 
口 Kruskal 算法 

这 是 图 中 的 加 权 图 的 男 一 个 经 典 算法 ， 其 中 边 的 处 理 顺序 取决 于 它 的 权重 。 算 法 的 运行 时 间 是 
由 排序 所 需 的 时 间 决 定 的 。 
口 霍 夫 曼 压 缩 

这 是 一 个 经 典 的 数据 压缩 算法 。 它 处 理 的 数据 中 的 每 个 元 素 都 有 一 个 小 整数 作为 权重 ， 而 处 理 
的 过 程 就 是 将 权重 最 小 的 两 个 元 素 归 并 成 一 个 新 元 素 ， 并 将 其 权重 相 加 得 到 新 元 素 的 权重 。 使 用 优 
先 队 列 可 以 立即 实现 这 个 算法 。 其 他 几 种 数据 压缩 算法 也 是 基于 排序 的 。 

口 字符 串 处 理 

字符 串 处 理 算法 在 现代 密码 学 和 基因 组 学 中 起 着 关键 性 的 作用 。 它 们 也 常常 依赖 于 排序 算法 ( 一 
般 都 会 使 用 第 5 章 中 所 讨论 的 特殊 的 字符 串 排 序 算法 ) 。 例 如 ,在 第 6 章 中 我 们 在 学 习 找 出 给 定 字 
符 串 中 的 最 长 重复 子 字 符 囊 算法 时 会 先 将 字符 串 的 后 缀 排序 。 


问 Java 的 系统 库 中 有 优先 队列 这 种 数据 类 型 吗 ? 


答 有 ,请 见 java.uti1.PriorityQueue。 
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图 练习 
2 


.5.1 在 下 面 这 段 String 类 型 的 compareTo0) 方法 的 实现 中 ， 第 三 行 对 提高 运行 效率 有 何 帮 助 ? 


Ln 


public int compareTo(String that) 

{ 
if (this == that) return 0; /// 这 一 行 
int n = Math.min(this.length(), that.lengthO); 
for (int i = 0; i < n; i++) 


{ 
ff (this.charAt(i) < that.charAt(i)) return -1; 


else if (this.charAt(i) > that.charAt(i)) return +1; 


} 
return this.length() - that.length() ; 


} 
2.5.2 ”编写 一 段 程序 ， 从 标准 输入 读 入 一 列 单词 并 打印 出 其 中 所 有 由 两 个 单词 组 成 的 组 合 词 。 例 如 ， 如 
果 输 入 的 单词 为 after 、thought 和 afterthought， 那 么 afterthought 就 是 一 个 组 合 词 。 
2.5.3” 找 出 下 面 这 段 账 户 余额 Balance 类 的 实现 代码 的 错误 。 为 什么 compareToQ 方法 对 Comparable 
接口 的 实现 有 缺陷 ? 


public class Balance implements Comparable<Balance> 


{ 


private double amount; 
public int compareTo(Balance that) 


E if (this.amount < that.amount - 0.005) return 输入 DJIA 每 天 的 成 交 量 
a 1-0ct-28 3500000 
if (this.amount > that.amount + 0.005) return 2-0ct-28 3850000 
+1; 3-Oct-28 4060000 
return 0; 4-0ct-28 4330000 
I 5-Oct-28 4360000 

} 2 

sa A 和 二 站 30-Dec-99 554680000 
说 明 如 何 修正 这 个 问题 。 31-Dec-99 374049984 
2.5.4 实现 一 个 方法 Stri ng[] dedup(Stri ng[] a), 返回 一 个 3=Jan=o0 931800000 
有 序 的 ar] ， 并 删 去 其 中 的 重复 元 素 。 4-Jan-00 1009000000 


5-Jan-00 1085500032 


2.5.5 ”说 明 为 何 选择 排序 是 不 稳定 的 。 


2.5.6 ”用 递归 实现 select() 。 Et 
2.5.7 用 select() 找 出 入 个 元 素 中 的 最 小 值 平均 大 约 需 要 多 少 ee ee 
次 比较 ? 26-Aug-40 160000 
2.5.8 编写 一 段 程序 Frequency， 从 标准 输入 读 取 一 列 字 符 串 并 Ts 0 
按照 字符 串 出 现 频率 由 高 到 低 的 顺序 打印 出 每 个 字符 串 及 23-Jun-42 210000 
其 出 现 次 数 。 二 
2.5.9 为 将 右 侧 所 示 的 数据 排序 编写 一 个 新 的 数据 类 型 。 和 
2.5.10 创建 一 个 数据 类 型 Version 来 表示 软件 的 版 本 ， 例 如 15-Jul-02 2574799872 
115.1.1、115.10.1、115.10.2。 为 它 实 现 Comparable 接口 ， 19-Jul-02 2654099968 


2 ul 0202775559936 


其 中 115.1.1 的 版 本 低 于 115.10.1。 
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2.5.11 描述 排序 结果 的 一 种 方法 是 创建 一 个 保存 0 到 a.1ength-1 的 排列 p[] ， 使 得 p[i] 的 值 为 arj] 
元 素 的 最 终 位 置 。 用 这 种 方法 描述 插入 排序 、 选 择 排 序 、 希 尔 排序 、 归 并 排序 、 快 速 排序 和 堆 排 ”333 
序 对 一 个 含有 7 个 相同 元 素 的 数组 的 排序 结果 354 


o 


图 提高 是 


2.5.12 调度 。 编 写 一 段 程序 SPTjava， 从 标准 输入 中 读 取 任务 的 名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 市 
所 述 的 最 短处 理 时 间 优 先 的 原则 打印 出 一 份 调度 计划 ， 使 得 任务 完成 的 平均 时 间 最 小 。 

2.5.13 ”负载 均衡 。 编 写 一 段 程序 LPTjava， 接 受 一 个 整数 M 作为 命令 行 参数 ， 从 标准 输入 中 读 取 任务 的 
名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 所 述 的 最 长 处 理 时 间 优 先 原则 打印 出 一 份 调度 计划 ， 将 所 
有 任务 分 配给 M 个 处 理 器 并 使 得 所 有 任务 完成 所 需 的 总 时 间 最 少 。 

2.5.14 遂 域 名 排序 。 为 域名 编写 一 个 数据 类 型 Domain 并 为 它 实现 一 个 compareTo() 方法 ， 使 之 能 够 
按照 逆向 的 域名 排序 。 例 如 ， 域 名 cs.princeton.edu 的 道 是 edu.princeton.cs。 这 在 网 络 日 志 处 理 时 
很 有 用 。 提 示 : 使 用 s.splitC"\\.") 将 域名 用 点 分 为 者 干部 分 。 编 写 一 个 Domain 的 用 例 ， 从 
标准 输入 读 取 域 名 并 将 它们 按照 逆 域 名 有 序 地 打印 出 来 。 

2.5.15 ”垃圾 邮件 大 战 。 在 非法 垃圾 邮件 之 战 的 伊始 ， 你 有 一 大 串 来 自 各 个 域名 (也 就 是 电子 邮件 地 址 
中 @ 符号 后 面 的 部 分 ) 的 电子 邮件 地 址 。 为 了 更 好 地 伪造 回信 地 址 ， 你 应 该 总 是 从 相同 的 域 中 
向 目标 用 户 发 送 邮 件 。 例 如 ， 从 wayne@cs.princeton.edu 向 rs@cs.princeton.edu 发 送 垃圾 邮件 就 
很 不 错 。 你 会 如 何 处 理 这 份 电子 邮件 列表 来 高 效 地 完成 这 个 任务 呢 ? 

2.5.16 ”公正 的 选举 。 为 了 避免 对 名 字 排 在 字母 表 靠 后 的 候选 人 的 偏见 ， 加 州 在 2003 年 的 州长 选举 中 
所 有 候选 人 按照 以 下 字母 顺序 排列 : 
RWQOJMVAHBSCGCZXNTCIEKUPDYFL 
创建 一 个 遵守 这 种 顺序 的 数据 类 型 并 编写 一 个 用 例 Califomia， 在 它 的 静态 方法 main() 中 将 字符 
串 按 照 这 种 方式 排序 。 假 设 所 有 字符 串 全 部 都 是 大 写 的 。 

2.5.17 ”检测 稳定 性 。 扩 展 练习 2.1.16 中 的 check0( 方法 ， 对 指定 数组 调用 sort()， 如 果 排 序 结果 是 稳 


人 


各 


定 的 则 返回 true， 和 否则 返回 false。 不 要 假设 sort() 只 会 使 用 exch() 移动 数据 。 3 
2.5.18 ”强制 稳定 。 编写 一 段 能 够 将 任意 排序 方法 变 得 稳定 的 封装 代码 ,创建 一 种 新 的 数据 类 型 作为 键 ， 
将 键 的 原始 索引 保存 在 其 中 ， 并 在 调用 sortQ 之 后 再 恢复 原始 的 键 。 
2.5.19 Kendall tau 距离 。 编 写 一 段 程 序 KendallTau.java， 在 线性 对 数 时 间 内 计算 两 组 排列 之 间 的 
Kendall tau 距离 。 
2.5.20 空闲 时 间 。 假 设 有 一 台 计 算 机 能 够 并 行 处 理 W 个 任务 。 编 写 一 段 程序 并 给 定 一 系列 任务 的 起 始 
时 间 和 结束 时 间 ， 找 出 这 人 台 机 器 最 长 的 空闲 时 间 和 最 长 的 繁忙 时 间 。 
2.5.21 多 维 排序。 编写 一 个 Vector 数据 类 型 并 将 以 维 整 型 向 量 排序 。 排 序 方法 是 先 按照 一 维 数字 排序 ， 
一 维 数字 相同 的 向 量 则 按照 二 维 数字 排序 ， 再 相同 的 向 量 则 按照 三 维 数字 排序 ， 如 此 这 般 。 
2.5.22 ”股票 交易 。 投 资 者 对 一 只 股票 的 买卖 交易 都 发 布 在 电子 交易 市 场 中 。 他 们 会 指定 最 高 买 入 价 和 
最 低 卖 出 价 ， 以 及 在 该 价位 买卖 的 笔 数 。 编 写 一 段 程 序 ， 用 优先 队列 来 匹配 买 家 和 卖家 并 用 模 
拟 数据 进行 测试 。 可 以 使 用 两 个 优先 队列 ， 一 个 用 于 买 家 一 个 用 于 卖家 ， 当 一 方 的 报价 能 够 和 
另 一 方 的 一 份 或 多 份 报价 匹配 时 就 进行 交易 。 
2.5.23 ”选择 的 取样 : 实验 使 用 取样 来 改进 select() 函数 的 想法 。 提示 : 使 用 中 位 数 可 能 并 不 总 是 有 效 。 
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2.5.26 


2.5.27 


2.5.28 


2.5.29 
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稳定 的 优先 队列 。 实 现 一 个 稳定 的 优先 队列 (将 重复 的 元 素 按照 它们 被 插入 的 顺序 返回 ) 
平面 上 的 点 。 为 表 1.2.3 的 Point2D 类 型 编写 三 个 静态 的 比较 器 ， 一 个 按照 x 坐标 比较 ， 一 个 按 


照 y 坐标 比较 ， 一 个 按照 点 到 原点 的 距离 进行 比较 。 编 写 两 个 非 静 态 的 比较 器 ， 一 个 按照 两 点 
到 第 三 点 的 距离 比较 ， 一 个 按照 两 点 相对 于 第 三 点 的 幅 角 比较 。 

简单 多 边 形 。 给 定 平面 上 的 入 个 点 ， 用 它们 夯 出 一 个 多 边 形 。 提 示 : 找到 y 坐标 最 小 的 点 了， 
在 有 多 个 最 小 了 坐标 的 点 时 取 x 坐标 最 小 者 ， 然 后 将 其 他 点 按照 以 p 为 原点 的 幅 角 大 小 的 顺序 
依次 连接 起 来 。 


反 回 


个 index[] 数组 。 为 


平行 数组 的 排序 。 在 将 平行 数组 排序 时 ， 可 以 将 索引 排序 并 返 


Insertion 添加 一 个 indirectSort() 方法 ， 接 受 一 个 Comparable 的 对 象 数 组 a[] 作为 参 
数 ， 但 它 不 会 将 a[] 中 的 元 素 重新 排列 ， 而 是 返回 一 个 整形 数组 index[] 使 得 a[index[0]] 到 


a[index[N-1]] 正好 是 升序 的 。 


按 文件 名 排序 。 编 写 一 个 FileSorter 程序 ， 从 命令 行 接受 一 个 目录 名 并 打印 出 按照 文件 名 排序 后 


的 所 有 文件 。 提 示 : 使 用 File 数据 类 型 。 


按 大 小 和 最 后 修改 日 期 将 文件 排序 。 为 File 数据 类 型 编写 比较 器 ， 使 之 能 够 将 文件 按照 大 小 、 
文件 名 或 最 后 修改 日 期 将 文件 升序 或 者 降序 排列 。 在 程序 LS 中 使 用 这 些 比较 器 ， 它 接受 一 个 命 
令 行 参 数 并 根据 指定 的 顺序 列 出 目录 的 内 容 。 例 如 ,，"-t" 指 按 照 时 间 惟 排序 。 支 持 多 个 选项 以 


消除 排序 位 次 相同 者 ， 同 时 必须 确保 排序 的 稳定 性 。 


Boerner 定理 。 真 假 判 断 : 如 果 你 先 将 一 个 矩阵 的 每 一 列 排 序 ， 再 将 矩阵 的 每 一 行 排序 ， 所 有 的 


列 仍然 是 有 序 的 。 证 明 你 的 结论 。 


mm 人 日 
图 实验 是 


2.5.31 


2.5.32 


2.5.33 
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重复 元 素 。 编 写 一 段 程序 ， 接 受命 令 行 参 数 M、N 和 T， 然 后 使 用 了 


E 文 是 


FP 的 代码 进行 T 遍 实验 : 


生成 N 个 0 到 M-1 间 的 int 值 并 计算 重复 值 的 个 数 。 令 T=10,，N=10”、10'、10 和 10 以 及 
M=N/2、N 和 2N。 根据 概率 论 ， 重 复 值 的 个 数 应 该 约 为 (1-e”)， 其 中 a=N/M。 打 印 一 张 表格 


来 确认 你 的 实验 验证 了 这 个 公式 。 


8 字谜 题 。8 字谜 题 是 S. Loyd 于 19 世纪 70 年 代 发 明 的 一 个 游戏 。 游 戏 需要 一 个 三 乘 三 的 九宫 格 ， 


其 中 八 格 中 填 上 了 1 到 8 这 8 个 数字 ， 一 格 空 着 。 你 的 目标 就 是 将 所 有 的 格子 排序 。 可 以 将 一 


n 
生 


距离 它 的 正确 位 置 的 曼哈顿 距离 ， 或 是 这 些 距 离 的 平方 之 和 。 


个 格子 向 上 下 或 者 左右 移动 ( 但 不 能 是 对 角 线 方向 ) 到 空白 的 格子 中 。 编 写 一 个 程序 用 A* 算法 
解决 这 个 问题 。 先 用 到 达 九 宫 格 的 当前 位 置 所 需 的 步 数 加 上 错位 的 格子 数量 作为 优先 级 函数 ( 注 
意 ， 步 数 至 少 大 于 等 于 错位 的 格子 数 ) 。 尝 试用 其 他 函数 代替 错位 的 格子 数量 ， 比 如 每 个 格子 


随机 交易 。 开 发 一 个 接受 参数 N 的 生成 器 ， 根 据 你 能 想到 的 任意 假设 条 件 生成 W 个 随机 的 


Transaction 对 象 ( 请 见 练习 2.1.21 和 练习 2.1.22 )。 对 于 NE10 、 1010 和 104, 比较 用 希 尔 排序 、 


归并 排序 、 快 速 排序 和 堆 排序 将 N 个 交易 排序 的 性 能 。 
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现代 计算 机 和 网 络 使 我 们 能 够 访问 海量 的 信息 。 高 效 检索 这 些 信 息 的 能 力 是 处 理 它 们 的 重要 前 
提 。 本 章 描述 的 都 是 数 十 年 来 在 广泛 应 用 中 经 过 实践 检验 的 经 典 查 找 算 法 。 没 有 这 些 算 法 ， 现 代 信 
息 世 界 的 基础 计算 设施 都 无 从 谈 起 。 

我 们 会 使 用 符号 表 这 个 词 来 描述 一 张 抽象 的 表格 ， 我 们 会 将 信息 〈 值 ) 存储 在 其 中 ， 然 后 按照 

站 定 的 键 来 搜索 并 获取 这 些 信 息 。 键 和 值 的 具体 意义 取决 于 不 同 的 应 用 。 符 号 表 中 可 能 会 保存 很 多 

键 和 很 多 信息 ， 因 此 实现 一 张 高 效 的 符号 表 也 是 一 项 很 有 挑战 性 的 任务 。 

符号 表 有 时 被 称 为 字典 , 类 似 于 那 本 将 单词 的 释义 按照 字母 顺序 排列 起 来 的 历史 悠久 的 参考 书 。 
在 英语 字典 里 ， 键 就 是 单词 ， 值 就 是 单词 对 应 的 定义 、 发 音 和 词 源 。 符 号 表 有 时 又 叫做 索引 ， 即 书 
本 最 后 将 术语 按照 字母 顺序 列 出 以 方便 查找 的 那 部 分 。 在 一 本 书 的 索引 中 ， 键 就 是 术语 ， 而 值 就 是 
书 中 该 术语 出 现 的 所 有 页 码 。 

在 说 明了 基本 的 API 和 两 种 重要 的 实现 之 后 ， 我 们 会 学 习 用 三 种 经 典 的 数据 类 型 来 实现 高 效 的 
符号 表 : 二 又 查找 树 、 红 黑 树 和 散 列 表 。 在 总 结 中 我 们 会 看 到 它们 的 若干 扩展 和 应 用 ， 它 们 的 实现 
都 有 赖 于 我 们 在 本 章 中 将 会 学 到 的 高 效 算法 。 
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3.1 符号 表 


符号 表 最 主要 的 目的 就 是 将 


个 键 和 一 个 值 联系 起 来 。 用 例 能 够 将 一 个 键 值 对 插入 符号 表 并 和 硕 


望 在 之 后 能 够 从 符号 表 的 所 有 键 值 对 中 按照 键 直 接 找到 相对 应 的 值 。 本 章 会 讲解 多 种 构造 这 样 的 数 
据 结构 的 方法 ， 它 们 不 光 能 够 高 效 地 插入 和 查找 ， 还 可 以 进行 其 他 几 种 方便 的 操作 。 要 实现 符号 表 ， 
我 们 首先 要 定义 其 背后 的 数据 结构 ， 并 指明 创建 并 操作 这 种 数据 结构 以 实现 插入 、 查 找 等 操作 所 需 


的 算法 。 


查找 在 大 多 数 应 
构 ， 包 括 Java 


何在 程序 中 有 效 地 使 


j 程 序 中 都 至 关 重 要 ， 许 多 编程 环境 也 因此 将 符号 表 实 现 为 高 级 的 抽象 数据 结 


我 人 
应 用 场景 中 可 能 出 现 的 键 和 值 。 我 们 马上 会 看 到 一 些 参 考 怕 


门 会 在 3.5 节 中 讨论 Java 的 符号 表 实 现 。 表 3.1.1 给 出 的 例子 是 在 一 些 典 型 的 


| 符号 表 。 本 书 中 我 们 还 会 在 其 他 算法 中 使 用 符号 表 。 


E 的 用 例 ，3.5 节 的 目的 就 是 向 你 展示 如 


定义 。 符 号 表 是 一 种 存储 键 值 对 的 数据 结构 ， 支 持 两 种 操作 : 插入 (put) ， 即 将 一 组 新 的 键 什 
对 存 入 表 中 ; 查找 (get) ， 即 根据 给 定 的 键 得 到 相应 的 值 。 


表 3.1.1 典型 的 符号 表 应 用 


应 ”用 查找 的 目的 键 值 

子 典 找 出 单词 的 释义 单词 释义 

图 书 索引 找 出 相关 的 页 码 术语 一 串 页 码 

文件 共享 找到 歌曲 的 下 载 地 址 歌曲 名 计算 机 ID 

账户 管理 处 理 交 易 账户 号 码 交易 详情 

网 络 搜索 找 出 相关 网 页 关键 字 网 页 名 称 
362 编译 天 找 出 符号 的 类 型 和 值 变量 名 类 型 和 值 

3.1.1 _ API 


符号 表 是 一 种 典型 的 抽象 数据 类 型 ( 请 见 第 1 章 ) : 它 代表 着 一 组 定义 清晰 的 值 以 及 相应 的 操 


作 ,， 使 得 我 们 能 够 将 类 型 的 实现 和 使 用 


区 分 开 来 。 和 以 前 一 样 ， 我 们 要 用 应 用 程序 编程 接口 (API ) 


来 精确 地 定义 这 些 操作 ( 如 表 3.1.2 所 示 ) ， 为 数据 类 型 的 实现 和 用 例 提 供 一 份 “ 契 约 ”。 
表 3.1.2 一 种 简单 的 泛 型 符号 表 API 
public class ST<Key, Value> 
STO 创建 一 张 符号 表 
void put(Key key, Value val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 nu11 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 在 表 中 是 否 有 对 应 的 值 
boolean isEmpty() 表 是 否 为 空 
int size(Q) 表 中 的 键 值 对 数量 
Iterable<Key> keysO) 表 中 的 所 有 键 的 集合 


在 查看 用 例 代码 之 前 ， 为 了 保证 代码 的 一 臻 、 简 洁 和 实用 ， 我 们 要 先 说 明 有 具体 实现 


计 决 策 。 


的 几 个 设 
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3.1.1.1 泛 型 

和 排序 一 样 ， 在 设计 方法 时 我 们 没有 指定 处 理 对 象 的 类 型 ， 而 是 使 用 了 泛 型 。 对 于 符号 表 ， 我 
们 通过 明确 地 指定 查找 时 键 和 值 的 类 型 来 区 分 它们 的 不 同 角 色 ， 而 不 是 像 2.4 节 的 优先 队列 那样 将 
键 和 元 素 本 身 混为一谈 。 在 考虑 了 这 份 基本 的 API 后 (例如 ， 这 里 没有 说 明 键 的 有 序 性 ) ， 我 们 会 
用 Comparable 的 对 象 来 扩展 典型 的 用 例 ， 这 也 会 为 数据 类 型 带 来 许多 新 的 方法 。 
3.1.1.2 ”重复 的 键 

我 们 的 所 有 实现 都 遵循 以 下 规则 : 
口 每 个 键 只 对 应 着 一 个 值 ( 表 中 不 允许 存在 重复 的 键 ) ; 
口 当 用 例 代 码 向 表 中 存 入 的 键 值 对 和 表 中 已 有 的 键 ( 及 关联 的 值 ) 冲突 时 , 新 的 值 会 蔡 代 旧 的 值 。 

这 些 规 则 定义 了 关联 数组 的 抽象 形式 。 你 可 以 将 符号 表 想 象 成 一 个 数组 ， 键 即 索 引 ， 值 即 数 
组 的 元 素 。 在 一 个 一 般 的 数组 中 ， 键 就 是 整 型 的 索引 ， 我 们 用 它 来 快速 访问 数组 的 内 容 ; 在 一 个 
关联 数组 ( 符号 表 ) 中 ， 键 可 以 是 任意 类 型 ， 但 我 们 仍然 可 以 用 它 来 快速 访问 数组 的 内 容 。 一 些 
编程 语言 ( 非 Java ) 直接 支持 程序 员 使 用 st[key] 来 代替 st.get(key)，st[key]=val 来 代替 
st.put(key，val)， 其 中 key ( 键 ) 和 val ( 值 ) 都 可 以 是 任意 类 型 的 对 象 。 
3.1.1.3 空 Cnull) 键 

键 不 能 为 空 。 和 Java 中 的 许多 其 他 机 制 一 样 ， 使 用 空 键 会 产生 一 个 和 运行 时 异常 〈 请 见 本 节 答 疑 
的 第 三 条 ) 。 
3.1.1.4 空 (null) 值 

我 们 还 规定 不 允许 有 空 值 。 这 个 规定 的 直接 原因 是 在 我 们 的 API 定义 中 ， 当 键 不 存在 时 getO) 
方法 会 返回 空 , 这 也 意味 着 任何 不 在 表 中 的 键 关联 的 值 都 是 空 。 这 个 规定 产生 了 两 个 (我们 所 期 望 的 ) 
结果 : 第 一 ， 我 们 可 以 用 get0 方法 是 否 返 回 空 来 测试 给 定 的 键 是 否 存 在 于 符号 表 中 ; 第 二 ， 我 们 
可 以 将 空 值 作为 putQ 〇 方法 的 第 二 个 参数 存 人 表 中 来 实现 删除 ， 也 就 是 3.1.1.5 节 的 主要 内 容 。 
3.1.1.5 “删除 操作 

在 符号 表 中 ， 删 除 的 实现 可 以 有 两 种 方法 : 延 时 删除 ， 也 就 是 将 键 对 应 的 值 置 为 空 ， 然 后 在 
某 个 时 候 删 去 所 有 值 为 空 的 键 ; 或 是 即时 删除 ， 也 就 是 立刻 从 表 中 删除 指定 的 键 。 刚 才 已 经 说 过 ， 
put(key，nu11) 是 delete(key) 的 一 种 简单 的 ( 延 时 型 ) 实现 。 而 实现 ( 即时 型 ) deleteQ) 
就 是 为 了 替代 这 种 默认 的 方案 。 在 我 们 的 符号 表 实 现 中 不 会 使 用 默认 的 方案 ， 而 在 本 书 的 网 站 上 
putQ 实现 的 开头 有 这 样 一 句 防 御 性 代码 : 

if (val == null) { delete(key); return; } 

这 保证 了 符号 表 中 任何 键 的 值 都 不 为 空 。 为 了 节省 版 面 我 们 没有 在 本 书 中 附 上 这 段 代码 ( 我 们 
也 不 会 在 调用 putQ 时 使 用 nu11) 。 
3.1.1.6 ”便捷 方法 

为 了 用 例 代码 的 清晰 ， 我 们 在 API 中 加 入 了 contains() 和 isEmptyQ 方法 ,它们 的 实现 如 
表 3.1.3 所 示 ， 只 需要 一 行 。 


表 3.1.3 默认 实现 


方 法 默认 实现 
void delete(Key key) put(key, null); 
boolean contains(key key) return get(key) != null; 


boolean isEmpty() return size() == 
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为 节省 篇 幅 ， 我 们 不 想 重 复 这 些 代码 ， 但 我 们 约定 它们 存在 于 所 有 符号 表 API 的 实现 中 ， 用 例 
程序 可 以 自由 使 用 它们 。 
3.1.1.7 迭代 

为 了 方便 用 例 处 理 表 中 的 所 有 键 值 ， 我 们 有 时 会 在 API 的 第 一 行 加 上 implements Iterable 
<Key> 这 人 句 话 ， 强 制 所 有 实现 都 必须 包含 iterator() 方法 来 返回 一 个 实现 了 hasNext() 和 
next() 方法 的 迭代 器 ， 如 1.3 节 的 栈 和 队列 所 述 。 但 是 对 于 符号 表 我 们 采用 了 一 个 更 简单 的 方法 。 
我 们 定义 了 keys Q 〇 方法 来 返回 一 个 Iterable<Key> 对 象 以 方便 用 例 遍 历 所 有 的 键 。 这 人 么 做 是 为 了 
和 以 后 的 有 序 符号 表 的 所 有 方法 保持 一 致 ， 使 得 用 例 可 以 遍历 表 的 键 集 的 一 个 指定 的 部 分 。 
3.1.1.8” 键 的 等 价 性 

要 确定 一 个 给 定 的 键 是 否 存 在 于 符号 表 中 ， 首 先 要 确立 对 象 等 价 性 的 概念 。 我 们 在 1.2.5.8 节 
深入 讨论 过 这 一 点 。 在 Java 中 ， 按 照 约定 所 有 的 对 象 都 继承 了 一 个 equals 0) 方法 ，Java 也 为 它 
的 标准 数据 类 型 例如 Integer 、Double 和 String 以 及 一 些 更 加 复杂 的 类 型 ， 如 File 和 URL， 实 
现 了 equals 0) 方法 一 一 当 使 用 这 些 数据 类 型 时 你 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 都 
是 String 类 型 ， 当 日 仅 当 x 和 y 的 长 度 相 同 且 每 个 位 置 上 的 字母 都 相同 时 ，x.equals(y) 返回 
true。 而 自 定义 的 键 则 需要 如 1.2 节 所 述 重 写 equals 0) 方法 。 你 可 以 参考 我 们 为 Date 类 型 (请 
见 1.2.5.8 节 ) 实现 的 equals 〇 方法 为 你 自己 的 数据 类 型 实现 equals 〇 方法 。 和 2.4.4.5 节 中 讨论 
的 优先 队列 一 样 ， 最 好 使 用 不 可 变 的 数据 类 型 作为 键 ， 否 则 表 的 一 致 性 是 无 法 保证 的 。 


3.1.2 ”有 序 符号 表 

典型 的 应 用 程序 中 ， 键 都 是 Comparable 的 对 象 ， 因 此 可 以 使 用 a.compareTo(b) 来 比较 a 和 
b 两 个 键 。 许 多 符号 表 的 实现 都 利用 了 Comparable 接口 带 来 的 键 的 有 序 性 来 更 好 地 实现 put QO 和 
get 0) 方法 。 更 重要 的 是 在 这 些 实现 中 ， 我 们 可 以 认为 符号 表 都 会 保持 键 的 有 序 并 大 大 扩展 它 的 
API， 根 据 键 的 相对 位 置 定 义 更 多 实用 的 操作 。 例 如 ， 假 设 键 是 时 间 ， 你 可 能 会 对 最 早 的 或 是 最 晚 的 
键 或 是 给 定时 间 段 内 的 所 有 键 等 感 兴趣 。 在 大 多 数 情况 下 用 实现 put() 和 getQ 方法 背后 的 数据 结 
构 都 不 难 实现 这 些 操作 。 于 是 ， 对 于 Comparable 的 键 ， 在 本 章 中 我 们 实现 了 表 3.1.4 中 的 API。 


表 3.1.4 一 种 有 序 的 泛 型 符号 表 的 API 


public class ST<Key extends Comparable<key>, Value> 


sTO 创建 一 张 有 序 符号 表 
void putCKey key, Value val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 空 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 是 否 存 在 于 表 中 
boolean isEmpty() 表 是 否 为 空 
int size() 表 中 的 键 值 对 数量 
Key minO) 最 小 的 键 
Key max() 最 大 的 键 
Key floor(Key key) 小 于 等 于 key 的 最 大 键 
Key ceiling(Key key) 大 于 等 于 key 的 最 小 键 
int rank(Key key) 小 于 key 的 键 的 数量 


Key select(int k) 排名 为 k 的 键 


3.1 符号 表 二 231 


( 续 ) 
public class ST<Key extends Comparable<key>, Value> 
void deleteMin() 删除 最 小 的 键 
void deleteMax() 删除 最 大 的 键 
int size(Key 1o，Key hi) [1o..hi] 之 间 键 的 数量 
Iterable<Key> keys(Key 1o，Key hi) [1o0. .hi] 之 间 的 所 有 键 ， 已 排序 
Iterable<Key> keysQ) 表 中 的 所 有 键 的 集合 ， 已 排序 


只 要 你 见 到 类 的 声明 中 含有 泛 型 变量 Key extends Comparable<Key>， 那 就 说 明 这 上 段 程序 是 
在 实现 这 份 API， 其 中 的 代码 依赖 于 Comparable 的 键 并 且 实现 了 更 加 丰富 的 操作 。 上 面 所 有 这 些 


操作 一 起 为 用 例 定 义 了 一 个 有 序 符 号 表 。 
3.1.2.1 ”最 大 键 和 最 小 键 


对 于 一 组 有 序 的 键 ， 最 自然 的 反应 就 是 查询 其 中 的 最 大 键 和 最 小 键 。 我 们 在 2.4 节 讨 论 优先 队 
列 时 已 经 遇 到 过 这 些 操 作 。 在 有 序 符号 表 中 ， 我 们 也 有 方法 删除 最 大 键 和 最 小 键 〈 以 及 它们 所 关联 
的 值 ) 。 有 了 这 些 ， 符 号 表 就 具有 了 类 似 于 2.4 节 中 IndexMinPQQ 的 能 力 。 主 要 的 区 别 在 于 优先 
队列 中 可 以 存在 重复 的 键 但 符号 表 中 不 行 ， 而 且 有 序 符号 表 支 持 的 操作 更 多 。 
3.1.2.2 ”向 下 取 整 和 向 上 取 整 

对 于 给 定 的 键 , 向 下 取 整 ( floor ) 操 作 ( 找 出 小 于 等 于 该 键 的 最 大 键 ) 和 向 上 取 整 ( ceiling ) 操 作 ( 找 
出 大 于 等 于 该 键 的 最 小 键 ) 有 时 是 很 有 用 的 。 这 两 个 术语 来 自 于 实数 的 取 整 函数 ( 对 一 个 实数 x 问 
下 取 整 即 为 小 于 等 于 x 的 最 大 整数 ， 向 上 取 整 则 为 大 于 等 于 x 的 最 小 整数 ) 。 
3.1.2.3 ”排名 和 选择 

检验 一 个 新 的 键 是 否 插 入 合适 位 置 的 基 
本 操作 是 排名 (rank， 找 出 小 于 指定 键 的 键 


表 3.1.5 有 序 符号 表 的 操作 示例 
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键 值 
的 数量 ) 和 选择 ( select, 找 出 排名 为 的 键 ) 。 minO— -09:00:00 Chicago 
要 测试 一 下 你 是 否 完全 理解 了 它们 的 作用 ， 09:00:03 Phoenix 
请 确认 对 于 0 到 sizeO-1 的 所 有 1 都 有 人 
月 get (09:00:13) :00:59 Chicago 
i==rank(select(i))， 且 所 有 的 键 都 满足 09:01:10 Houston 
Ze a f1 :05:00) 一 ~09:03 : i 

key==select(rank(key))。2.5 节 中 我 们 在 QorC09303.00) 1 
学 习 排序 时 已 经 遇 到 过 对 这 两 种 操作 的 需求 select(7) 一 ~09:10:25 Seattle 
py 09:14:25 Phoenix 

Ah 号 三 | 人 由 
了 。 对 于 符号 表 ， 我 们 的 挑战 是 在 实现 插入 、 WE 
删除 和 查找 的 同时 快速 实现 这 两 种 操作 。 09:19:46 Chicago 
» 品 从- 一 a keys(09:15:00，09:25:00) 一 ~|09:21:05 Chicago 
有 序 符号 表 的 操作 示例 如 表 3.1.5 所 示 。 09:22:43 Seattle 
3.1.2.4 ”范围 查找 09:22:54 Seattle 
和 Aez 轩 信号 z gt 才 -站 09:25:52 Chicago 
给 定 范围 内 ( 在 两 个 给 定 的 键 之 间 ) 有 eh 
多 少 键 ? 是 哪些 ?在 很 多 应 用 中 能 够 回答 这 09:36:14 Seattle 
些 问题 并 接受 两 个 参数 的 sizeC) 和 keys 0 0 

size(09:15:00, 09:25:00) = 5 


方法 都 很 有 用 ,特别 是 在 大 型 数据 库 中 。 能 
够 处 理 这 类 查询 是 有 序 符号 表 在 实践 中 被 广 
泛 应 用 的 重要 原因 之 一 。 

3.1.2.5 ”例外 情况 


当 一 个 方法 需要 返回 一 个 键 但 表 中 却 没有 合适 的 键 可 以 返回 时 ， 我 们 约定 抛 出 一 个 异常 〈 另 一 


rank(09:10:25) = 7 


367 


232 > 第 3 章 查 找 


308 


369 


种 合理 的 方法 是 在 这 种 情况 下 返回 空 ) 。 例 如 ， 在 符号 表 为 空 时 , min()、max()、deleteMin()、 
deleteMax()、floor() 和 ceiling() 都 会 抛 出 异常 ， 当 k<0 或 k>=size(0) 时 select(k) 也 会 抛 
出 异常 。 
3.1.2.6 ”便捷 方法 

在 基础 API 中 我 们 已 经 见 过 了 contains() 和 isEmpty0 方法 ,为 了 用 例 的 清晰 我 们 又 在 API 
中 添加 了 一 些 宛 余 的 方法 。 为 了 节约 版 面 ， 除 非特 别 声明 ， 我 们 约定 所 有 有 序 符号 表 API 的 实现 都 
含有 如 表 3.1.6 所 示 的 方法 。 


表 3.1.6 ”有 序 符 号 表 中 元 余 有 序 性 方法 的 默认 实现 


方 法 默认 的 实现 
void deleteMin() delete(min(O)); 
void deleteMax() delete(max()); 
int size(Key lo, Key hi) if (hi.compareTo(l1lo) < 0) 
return 0; 


else if (contains (hi)) 

return rank(hi) - rank(lo) + 1; 
else 

return rank(hi) - rank(l1o); 


Iterable<Key> keys() return keys(min(), max()); 


3.1.2.7 ”再 谈 ) 键 的 等 价 性 

Java 的 一 条 最 佳 实践 就 是 维护 所 有 Comparable 类 型 中 compareTo0 方法 和 equalsQ 〇 方法 的 
一 致 性 。 也 就 是 说 ， 任 何 一 种 Comparable 类 型 的 两 个 值 a 和 b 都 要 保证 (a.compareTo(b)==0) 
和 a.equals(b) 的 返回 值 相同 。 为 了 避免 任何 潜在 的 二 义 性 ， 我 们 不 会 在 有 序 符号 表 的 实现 中 使 
用 equals 0) 方法 。 作 为 替代 ， 我 们 只 会 使 用 compareTo0 方法 来 比较 两 个 键 ， 即 我 们 用 布尔 表达 
式 a.compareTo(b)==0 来 表示 “a 和 b 相等 吗 ?” ”。 一 般 来 说 ， 这 样 的 比较 都 代表 着 在 符号 表 中 
的 一 次 成 功 查找 ( 找到 了 b ) 。 和 排序 算法 一 样 ，Java 为 许多 经 常 作为 键 的 数据 类 型 提供 了 标准 的 
compareTo0) 方法 ， 为 你 自 定 义 的 数据 类 型 实现 一 个 compareTo0 方法 也 不 困难 (参见 2.5 节 ) 。 
3.1.2.8 ”成 本 模型 

无 论 我 们 是 使 用 equalsQ 〇 ， 方 法 (对 于 符号 表 的 键 不 是 Comparable 对 象 而 言 ) 还 是 
compareTo() 方法 (对 于 符号 表 的 键 是 Comparable 对 象 而 言 ) ， 我 们 使 用 比较 一 词 来 表示 将 一 个 
符号 表 条 目 和 一 个 被 查找 的 键 进行 比较 操作 。 在 大 多 数 的 符号 表 实 现 中 ,这 个 操作 都 出 现在 内 循环 。 
在 少数 的 例外 中 ， 我 们 则 会 统计 数组 的 访问 次 数 。 


查找 的 成 本 模型 。 在 学 习 符 号 表 的 实现 时 ， 我 们 会 统计 比较 的 次 数 ( 等 价 性 测试 或 是 键 的 相 
互 比较 ) 。 在 内 循环 不 进行 比较 ( 极 少 ) 的 情况 下 ,我 们 会 统计 数组 的 访问 次 数 。 


符号 表 实 现 的 重点 在 于 其 中 使 用 的 数据 结构 和 get C(O)、putQ 〇 方法 。 在 下 文中 我 们 不 会 总 是 给 
出 其 他 方法 的 实现 ， 因 为 将 它们 作为 练习 能 够 更 好 地 检验 你 对 实现 背后 的 数据 结构 的 理解 程度 。 为 
了 区 别 不 同 的 实现 ， 我 们 在 特定 的 符号 表 实 现 的 类 名 前 加 上 了 描述 性 前 级 。 在 用 例 代码 中 ， 除 非 我 
们 想 使 用 一 个 特定 的 实现 ， 我 们 都 会 使 用 ST 表示 一 个 符号 表 实 现 。 在 本 章 和 其 他 章节 中 ， 经 过 学 
习 和 讨论 过 大 量 符号 表 的 使 用 和 实现 后 你 会 慢 慢 地 理解 这 些 API 的 设计 初衷 。 同 时 我 们 也 会 在 答疑 
和 练习 中 讨论 算法 设计 时 的 更 多 选择 。 


3.1.3 ”用例 举例 
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虽然 我 们 会 在 3.5 节 中 详细 说 明 符号 表 的 更 多 应 用 ， 在 学 习 它 的 实现 之 前 我 们 还 是 应 该 先 看 看 
如 何 使 用 它 。 相 应 地 我 们 这 里 考察 两 个 用 例 : 一 个 用 来 跟踪 算法 在 小 规模 输入 下 的 行为 测试 用 例 ， 


和 一 个 用 来 寻找 更 高 效 的 实现 的 性 能 测试 用 例 。 
3.1.3.1 行为 测试 用 例 


为 了 在 小 规模 的 输入 下 跟踪 算法 的 行为 ， 我 们 用 以 下 测试 用 例 测试 我 们 对 符号 表 的 所 有 实现 。 
这 段 代 码 会 从 标准 输入 接受 多 个 字符 串 ， 构 造 一 张 符号 表 来 将 i 和 第 i 个 字符 串 相关 联 ， 然 后 打印 
符号 表 。 在 本 书 中 我 们 假设 所 有 的 字符 串 都 只 有 一 个 字母 。 一 般 我 们 会 使 用 "S EA RCHEXA 
M P L E"。 按 照 我 们 的 约定 ， 用 例会 将 键 S 和 0， 键 R 和 3 关联 起 来 ， 等 等 。 但 E 的 值 是 12 (而 
非 1 或 者 6) ,A 的 值 为 8 (而 非 2) ， 因 为 我 们 的 关联 型 数组 意味 着 每 个 键 的 值 取决 于 最 近 一 次 
put0) 方法 的 调用 。 对 于 符号 表 的 简单 实现 (无 序 ) ， 用 例 的 输出 中 键 的 顺序 是 不 确定 的 (这 和 有 具 


体 实现 有 关 ) ; 对 于 有 序 符号 表 ， 用 例 应 该 将 键 按 顺 序 打印 
在 3.5 节 中 讨论 的 一 种 重要 的 符号 表 应 用 的 一 个 特殊 情况 。 


出 来 。 这 是 一 种 索引 用 例 ， 它 是 我 们 将 


测试 用 例 的 实现 代码 如 下 所 示 。 测 试用 例 的 键 、 值 及 输出 如 图 3.1.1 所 示 。 


键 S E A RCHE xX AM PL E 
值 0 1 2 3 4 5 6 7 8 9101112 
' 简单 符号 表 的 有 序 符号 
public static void main(String[] args) (一 种 可 能 的 ) 输出 。 表 的 输出 
ST<String, Integer> st; L 11 ， 5 
st = new ST<String, Integer>(); P 10 
M 9 E: -12 
fom (me OilStdnRIESIEmpEy er x 7 H 5 
H 5 Ls 1 
String key = StdIn.readString() ; c 4 M 9 
st.put(key, i); RR p: 0 
1 A 8 R 3 
for (String s : st.keysO) E 12 S- 疾 
StdOut.printin(s + " " + st.get(s)); S 0 X 7 


外 


简单 的 符号 表 测试 用 例 


3.1.3.2 ”性 能 测试 用 例 


图 3.1.1 测试 用 例 的 键 、 值 和 输出 


FrequencyCounter 用 例会 从 标准 输入 中 得 到 的 一 列 字 符 串 并 记录 每 个 〈 长度 至 少 达 到 指定 的 
国 值 ) 字符 串 的 出 现 次 数 ， 然 后 遍历 所 有 键 并 找 出 出 现 频率 最 高 的 键 。 这 是 一 种 字典 ， 我 们 会 在 3.5 


节 中 更 加 详细 地 讨论 这 种 应 用 。 这 个 用 例 回 答 了 一 个 简单 的 


问题 : 哪个 〈 不 小 于 指定 长 度 的 ) 单词 


在 一 段 文字 中 出 现 的 频率 最 高 ? 在 本 章 中 ， 我 们 会 用 这 个 


j 例 以 及 三 段 文 字 来 进行 性 能 测试 : 狄 


更 斯 的 《双城记 》 中 的 前 五 行 (tinyTale.txt ) ，《 双 城 记 》 


Leipzig Corpora Collection 的 数据 库 ( leipzig1M.txt ), 内 容 为 一 


这 是 tinyTale.txt 的 内 容 : 


全 书 (tale.txt ) ， 以 及 一 个 知名 的 叫做 
百 万 条 随机 从 网 络 上 抽取 的 句子 ,例如 ， 
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% more tinyTale.txt 


it was the best of times it was the worst of times 


it was the age of wisdom it was the age of foolishness 

it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


小 型 测试 输入 

这 段 文字 共有 60 个 单词 ， 去 掉 重 复 的 单词 还 剩 20 个 ， 其 中 4 个 出 现 了 10 次 (频率 最 高 ) 。 
对 于 这 段 文字 ，FrequencyCounter 可 能 会 打印 出 让 、was 、the 或 者 of 中 的 某 一 个 单词 ( 具体 会 打 
总 结 了 大 型 测试 输入 流 的 


印 出 哪 一 个 取决 于 符号 表 的 具体 实现 ) ， 以 及 它 出 现 的 频率 10。 表 3.1.7 


en 一口 
性 质 。 
表 3.1.7 大 型 测试 输入 流 的 性 质 
tinyTale.txt tale.txt leipzig1M .txt 
单词 数 不 同 的 单词 数 单词 数 不 同 的 单词 数 单词 数 不 同 的 单词 数 
所 有 单词 60 20 135 635 10 679 21 191 455 534 580 
长 度 大 于 等 于 8 的 3 3 14 350 5 737 4 239 597 299 593 
单词 
长 度 大 于 等 于 10 的 2 2 4 582 2 260 1 610 829 165 555 
单词 
FrequencyCounter 用 例 实 现 过 程 如 下 所 示 。 


符号 表 的 用 例 


public class FrequencyCounter 

{ 
public static void main(String[] args) 
€ 


int minlen = Integer.parseInt(args[0]); 


// 最 小 键 长 


ST<String, Integer> st = new ST<String, Integer>(); 


while (!StdIn.isEmpty©O) 
{ // 构造 符号 表 并 统计 频率 
String word = StdIn.readStringQO; 


if (word.length() < minlen) continue; 


// 忽略 较 短 的 单词 


if (!st.contains(word)) st.put(word, 1); 


else st.put(word, st.get(word) + 1); 


} 
// 找 出 出 现 频率 最 高 的 单词 


String max = 
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st.put(max, 0); 
for (String word : st.keysO)) 
if (st.get(word) > st.get(max)) 


max = word; 


Stdout.printlnCmax + " " + st.get(max)); 


} 
这 个 符号 表 的 用 例 统计 了 标准 输入 中 各 % java FrequencyCounter 1 < tinyTale.txt 
个 单词 的 出 现 频率 ， 然 后 将 频率 最 高 的 单词 it 10 


打印 出 来 。 命 令 行 参 数 指定 了 表 中 的 键 的 最 % java FrequencyCounter 8 < tale.txt 
短 长 度 。 business 122 


% java FrequencyCounter 10 < leipzig1M.txt 
government 24763 
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研究 符号 表 处 理 大 型 文本 的 性 能 要 考虑 两 个 方面 的 因素 : 首先 ， 每 个 单词 都 会 被 作为 键 进行 搜 
索 ， 因 此 处 理性 能 和 输入 文本 的 单词 总 量 必然 有 关 ; 其 次 ， 输 入 的 每 个 单词 都 会 被 存 人 符号 表 ( 输 
入 中 不 重复 单词 的 总 数 也 就 是 所 有 键 都 被 插入 以 后 符号 表 的 大 小 ) ， 因 此 输入 流 中 不 同 的 单词 的 总 
数 也 是 相关 的 。 我 们 需要 这 两 个 量 来 估计 FrequencyCounter 的 运行 时 间 (作为 开始 ， 请 见 练习 
3.1.6 ) 。 我 们 会 在 学 习 了 一 些 算 法 之 后 再 回头 说 明 一 些 细节 ， 但 你 应 该 对 类 似 这 样 的 符号 表 应 用 的 
需求 有 一 个 大 致 的 印象 。 例 如 ,用 FrequencyCounter 分 析 leipzig1M.txt 中 长 度 不 小 于 8 的 单词 意 
味 着 ， 在 一 个 含有 数 十 万 键 值 对 的 符号 表 中 进行 上 百 万 次 的 查找 ， 而 互联 网 中 的 一 台 服 务 器 可 能 需 
要 在 含有 上 百 万 个 键 值 对 的 表 中 处 理 上 亿 的 交易 。 

这 个 用 例 和 所 有 这 些 例 子 都 提出 了 一 个 简单 的 问题 : 我 们 的 实现 能 够 在 一 张 用 多 次 get () 和 
put0) 方法 构造 出 的 巨型 符号 表 中 进行 大 量 的 get 0O) 操作 吗 ? 如 果 我 们 的 查找 操作 不 多 ， 那 么 任意 
实现 都 能 够 满足 需要 。 但 没有 一 个 高 效 的 符号 表 作 为 基础 是 无 法 使 用 FrequencyCounter 这 样 的 程 
序 来 处 理 大 型 问题 的 。FrequencyCounter 是 一 种 极为 常见 的 应 用 的 代表 ， 它 的 这 些 特性 也 是 许多 
其 他 符号 表 应 用 的 共性 : 
口 混合 使 用 查找 和 插入 的 操作 ; 

口 大 量 的 不 同 键 ; 
口 查找 操作 比 插 和 人 操作 多 得 多 ; 
口 虽然 不 可 预测 ， 但 查找 和 插入 操作 的 使 用 模式 并 非 随机 。 
我 们 的 目标 就 是 实现 一 种 符号 表 来 满足 这 些 能 够 解决 典型 的 实际 问题 的 用 例 的 需要 。 
下 面 , 我 们 将 会 学 习 两 种 初级 的 符号 表 实 现 并 通过 FrequencyCounter 分 别 评估 它们 的 性 能 。 
在 之 后 的 几 节 中 ， 你 会 学 习 一 些 经 典 的 实现 ， 即 使 对 于 庞大 的 输入 和 符号 表 它 们 的 性 能 仍然 非常 
优秀 。 局 


3.1.4 无 序 链表 中 的 顺序 查找 
符号 表 中 使 用 的 数据 结构 的 一 个 简单 选择 是 链表 ， 每 个 结 点 存储 一 个 键 值 对 ， 如 算法 3.1 中 
的 代码 所 示 。get O 的 实现 即 为 遍历 链表 ， 用 equal1s0 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 


236 Bb 


374 
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贱 


找 


的 键 。 如 果 匹 配 成 功 我 们 就 返回 相应 的 值 ， 否 则 我 们 返 
用 equalsQ 〇 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 的 键 。 
的 值 更 新 和 该 键 相关 联 的 值 ， 和 否则 我 们 就 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 扣 
开头 。 这 种 方法 也 被 称 为 顺序 查找 : 在 查找 中 我 们 一 个 一 个 地 | 


equals () 方法 来 寻找 与 被 查找 的 键 匹配 的 键 。 


算法 3.1 (SequentialSearchST ) 用 链表 实现 了 符号 表 的 基本 API， 我 们 在 第 1 章 中 的 基 在 
时 结构 中 学 习 过 它 。 这 里 我 们 将 size()、Kkeys() 和 即时 型 的 delete( 方法 


Sr 


> 


北 够 巩固 并 加 深 你 对 链表 和 符号 表 的 基本 API 的 理解 。 


可 | 


这 种 基于 链表 的 实现 能 够 用 于 和 我 们 的 用 例 类 似 的 、 需 要 大 型 符号 表 的 应 


质 


留 做 练习 。 这 


回 nul1。put0) 的 实现 也 是 遍历 链表 ， 
如 果 匹 配 成 功 我 们 就 用 第 二 个 参数 指定 
入 到 链表 的 
序 遍 历 符 号 表 中 的 所 有 键 并 使 用 


出 数 


些 练习 


al 


用 吗 ? 我 们 已 经 说 


过 ,分 析 符 号 表 算法 比分 析 排 序 算法 更 困难 ， 因 为 不 同 的 用 例 所 进行 的 操作 序列 各 不 相同 。 对 于 


FrequencyCounter， 最 常见 的 情形 是 虽然 查找 和 插入 的 使 


用 模式 是 不 可 预测 的 ， 但 它们 的 使 月 


昌 肯 


定 不 是 随机 的 。 因 此 我 们 主要 研究 最 坏 情况 下 的 性 能 。 为 了 方便 ,我 们 使 用 命中 表示 一 次 成 功 的 查找 ， 
未 命中 表示 一 次 失败 的 查找 。 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 如 图 3.1.2 所 示 。 


键 值 首 结 点 。 红色 为 新 

S 0 S | 0 | 加 入 的 结 点 

ES 黑色 是 在 查找 

A 2 [Alzlss|lElTsslo ,7 由 被 迄 历 的 结 点 

R 3 |[R|3H-Al2H-E[IHsTo 

c 4 [cT4HTRT3HAT2HETIH-STo | 

H 5 [Hf5>icf4 {RI3 AT2 HE I 一 [ET 一 修改 巡 的 人 

E 6 [HL5sh[cL4FRL3HAL2HLEroj 

x 7 |xl7H-Hf5H cl14HR13HAT2HE16H-s[o 本 

A 8 [xlL7hHFh5sFLcT4hHFLR 3HF-LArs] = 

M 9 |M[9H-xl7zH-H5hHcT4HFRI3HAsHE6H-s[o 

P 10 |PlioH-M[ 9 x17HFH HH cl4HFR3HAlshHE[6Hslo 

L11 LIH- [Pio Ms9HF xl7HFH5HcT4HRT3H-ATsH-E16H-s[o 

E 12 [LE 一 [Plio-msHLx7F-LH5HF-Lcl4F[RL3[ALs[EO 
图 3.1.2 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 ( 男 见 彩 插 ) 


算法 3.1 顺序 查找 基于 无 序 链表 ) 


public class SequentialSearchsT<Key, Value> 
{ 

private Node first; // 链表 首 结 点 
private class Node 
{ // 链表 结 点 的 定义 

Key key; 


Value val; 
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Node next; 


public Node(Key key, Value val, Node next) 


{ 
this.key = key; 
this.val = val; 
this.next = next; 
} 


} 
public Value get(Key key) 
{ // 查找 给 定 的 键 , 返回 相关 联 的 值 
for (Node x = first; x != null; x = x.next) 


if (key.equals(x.key)) 


return x.val; // 命中 
return null; // 未 名 中 


} 
public void put(Key key, Value val) 
{ // 查找 给 定 的 键 ， 找 到 则 更 新 其 值 ， 否 则 在 表 中 新 建 结 点 
for (Node x = first; x != null; x = x.next) 
if (key.equals(x.key)) 
{ x.val = val; return; } // 命中 ,更 新 
first = new Node(key,， val,，first); // 未 命中 ， 新 建 结 点 


} 

符号 表 的 实现 使 用 了 一 个 私有 内 部 Node 类 来 在 链表 中 保存 键 和 值 。get 0 的 实现 会 顺序 地 搜索 链 
表 查 找 给 定 的 键 ( 找到 则 返回 相关 联 的 值 ) 。put0 的 实现 也 会 顺序 地 搜索 链表 查找 给 定 的 键 ， 如 果 找 
到 则 更 新 相关 联 的 值 ， 否 则 它 会 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 开头 。size 〇 、 
keys() 和 即时 型 的 delete 0 方法 的 实现 留 做 练习 。 
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命题 A。 在 合 有 入 对 键 值 的 基于 ( 无 序 ) 链表 的 符号 表 中 ， 未 命中 的 查找 和 插入 操作 都 需要 N 
次 比较 。 命 中 的 查找 在 最 坏 情况 下 需要 叉 次 比较 。 特 别 地， 向 一 个 空 表 中 插入 N 个 不 同 的 键 需 
要 ~ N2 次 比较 。 

证 明 。 在 表 中 查找 一 个 不 存在 的 键 时 ， 我 们 会 将 表 中 的 每 个 键 和 给 定 的 键 比 较 。 因 为 不 多 许 出 
现 重复 的 键 ， 每 次 插入 操作 之 前 我 们 都 需要 这 样 查找 一 谢 。 


推论 。 向 一 个 空 表 中 插入 X 个 不 同 的 键 需要 ~ NW /2 次 比较 。 
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查找 一 个 已 经 存在 的 键 并 不 需要 线性 级 别 的 时 间 。 一 种 度量 方法 是 查找 表 中 的 每 个 键 ， 并 将 总 
时 间 除 以 N。 在 查找 表 中 的 每 个 键 的 可 能 性 都 相同 的 情况 下 时 ， 这 个 结果 就 是 一 次 查找 平均 所 需 的 
比较 数 。 我 们 将 它 称 为 随机 命中 。 尽 管 符 号 表 用 例 的 查找 模式 不 太 可 能 是 随机 的 ， 这 个 模型 也 总 能 
适应 得 很 好 。 我 们 很 容易 就 可 以 得 到 随机 命中 所 需 的 平均 比较 次 数 为 ~V2: 算法 3.1 中 的 getQ 〇 方法 
查找 第 一 个 键 需要 1 次 比较 ， 查 找 第 二 个 键 需要 2 次 比较 ， 如 此 这 般 ， 平均 比较 次 数 为 (1+2+…+N)/ 
N=(N+1)/2~N/2, 

这 些 分 析 完 全 证 明了 基于 链表 的 实现 以 及 顺序 查找 是 非常 低 效 的 ， 无 法 满足 Frequency- 
Counter 处 理 庞大 输入 问题 的 需求 。 比 较 的 总 次 数 和 查找 次 数 与 插入 次 数 的 乘积 成 正比 。 对 于 《 双 
城 记 》 这 个 数字 大 于 10”， 而 对 于 Leipzig Corpora 数据 库 这 个 数字 大 于 10"。 

按照 惯例 ， 为 了 验证 分 析 结 果 我 们 需要 进行 一 些 实验 。 这 里 我 们 用 FrequencyCounter 以 及 命 
今 行 参数 8 来 分 析 tale.txt。 这 将 需要 14 350 次 putQ (已 经 说 过 , 输入 中 的 每 个 单词 都 需要 一 次 
putQ 操作 来 更 新 它 的 出 现 频 率 ，contains () 方法 的 调用 是 可 以 避免 的 , 这 里 忽略 了 它 的 成 本 ) 。 
符号 表 将 包含 5737 个 键 ， 也 就 是 说 大 约 三 分 之 一 的 操作 都 将 表 增 大 了 ， 其 余 操 作为 查找 。 为 了 将 
性 能 可 视 化 我 们 使 用 了 VisualAccumulator (请 见 表 1.2.14 ) 将 每 次 put() 操作 转换 为 两 个 点 : 对 
于 第 ;次 putQ 〇 操作 , 我 们 会 在 横 坐 标 为 i, 纵 坐 标 为 该 次 操作 所 进行 的 比较 次 数 的 位 置 画 一 个 灰 点 ， 
以 及 横 坐 标 为 i, 纵 坐 标 为 前 z 次 putQ 操作 累计 所 需 的 平均 比较 次 数 的 位 置 画 一 个 黑 点 ， 如 图 3.1.3 
所 示 。 和 所 有 科学 实验 数据 一 样 ， 这 其 中 包含 了 很 多 信息 供 我 们 研究 ( 这 张 图 含有 14 350 个 灰 点 和 
14 350 个 黑 点 ) 。 这 里 ， 我 们 的 主要 兴趣 在 于 这 张 表 证 实 了 我 们 关于 put 0) 平均 需要 访问 半 条 链表 
的 狂想。 虽然 实 际 的 数据 比 一 半 稍 少 ， 但 对 这 个 事实 ( 以 及 图 表 曲 线 的 形状 ) 最 好 的 解释 应 该 是 应 
用 的 特性 ， 而 非 算法 〈 请 见 练习 3.1.36 ) 。 

尽管 某 个 具体 用 例 的 性 能 特点 可 能 是 复杂 的 ， 但 只 要 使 用 我 们 准备 的 文本 或 者 随机 有 序 输 
入 以 及 我 们 在 第 1 章 中 介绍 的 DoublingTest 程序 ， 我 们 还 是 能 够 轻松 估计 出 FrequencyCounter 
的 性 能 并 测试 验证 的 。 我 们 将 这 些 测试 留 给 练习 和 接 下 来 将 要 学 习 的 更 加 复杂 的 实现 。 如 果 
你 并 不 觉得 我 们 需要 更 快 的 实现 ， 请 一 定 完 成 这 些 练习 ! (或 者 用 FrequencyCounter 调用 
SedquentialSearchST 来 处 理 leipziglM.txt! ) 


5737 一 
长 
搓 
~ 2246 
0 
0 操作 14350 


图 3.1.3 使 用 SequentialSearchST,， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.5 ”有 序数 组 中 的 二 分 查找 
下 面 我 们 要 学 习 有 序 符号 表 API 的 完整 实现 。 它 使 用 的 数据 结构 是 一 对 平行 的 数组 ， 一 个 存储 
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键 一 个 存储 值 。 算 法 3.2 (BinarySearchST ) 可 以 保证 数组 中 Comparable 类 型 的 键 有 序 ， 然 后 使 
用 数组 的 索引 来 高 效 地 实现 get () 和 其 他 操作 。 

这 份 实现 的 核心 是 rankQ 〇 方法 ， 它 返回 表 中 小 于 给 定 键 的 键 的 数量 。 对 于 get 0 方法 ， 只 要 

给 定 的 键 存在 于 表 中 ，rank 0) 方法 就 能 够 精确 地 告诉 我 们 在 哪里 能 够 找到 它 ( 如 果 找 不 到 ， 那 它 
肯定 就 不 在 表 中 了 ) 。 
对 于 putQ 〇 方法 ， 只 要 给 定 的 键 存在 于 表 中 ，rank 0 方法 就 能 够 精确 地 告诉 我 们 到 哪里 去 更 
新 它 的 值 ， 以 及 当 键 不 在 表 中 时 将 键 存储 到 表 的 何 处 。 我 们 将 所 有 更 大 的 键 向 后 移动 一 格 来 腾 出 位 
置 (从 后 向 前 移动 ) 并 将 给 定 的 键 值 对 分 别 插入 到 各 自 数组 中 的 合适 位 置 。 结 合 我 们 测试 用 例 的 轨 
迹 来 研究 BinarySearchST 也 是 学 习 这 种 数据 结构 的 好 方法 。 

这 段 代 码 为 键 和 值 使 用 了 两 个 数组 〈 另 一 种 方式 请 见 练习 3.1.12 ) 。 和 我 们 在 第 1 章 中 对 泛 
型 的 栈 和 队列 的 实现 一 样 ， 这 段 代 码 也 需要 创建 一 个 Key 类 型 的 Comparable 对 象 的 数组 和 一 个 
Value 类 型 的 0bject 对 象 的 数组 ， 并 在 构造 函数 中 将 它们 转化 回 Key[] 和 Value[] 。 和 以 前 一 样 ， 
我 们 可 以 动态 调整 数组 ， 使 得 用 例 无 需 担心 数组 大 小 〈 请 注意 ， 你 会 发 现 这 种 方法 对 于 大 数组 实在 
是 太 慢 了 ) 。 

使 用 基于 有 序数 组 的 符号 表 实 现 的 索引 用 例 的 轨迹 如 表 3.1.8 所 示 。 


表 3.1.8 使 用 基于 有 序数 组 的 符号 表 实 现 的 索引 用 例 的 轨迹 


keys[] vals[] 
键 值 0123456789 N 01234567 8 9 
Sr 0 S 1 0 
E 江 ES a 2 10 黑色 的 是 向 右 
A 2 AES > 3 2 1 0 ,移动 过 的 元 素 
R 3 R“S 4 3 0 
C 4 CE RS 奖 色 的 是 5 4 1 30 

ViL 龙 > 圈 中 的 是 
上 MR 2 周二 一人 id 
Xx. 六 x 7 7 
A 8 7 () 
M 9 M R SX 8 9 3 07 
p 10 P RS 9 10 3 0 7 
L 11 LMP RS XxX 10 11 910 3 07 
E 12 10 
ACEHLMPRSX 8 412 511 910 3 07 378 


算法 3.2 二 分 查找 (基于 有 序数 组 ) 


public class BinarySearchST<Key extends Comparable<Key>, Value> 
{ 
private Key[] keys; 
private Value[] vals; 
private int N; 
public BinarySearchST(int capacity) 
{ ”// 调整 数组 大 小 的 标准 代码 请 见 算 法 1.1 
keys = (Key[]) new Comparable[capacity]; 
vals = (Value[]) new Object[capacity]; 
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public int size() 

{ return N; +} 

public Value get(Key key) 

{ 
if (isEmpty()) return null; 
int 1 = rank(key); 


if (i < N && keys[i] .compareTo(key) == 0) return vals[i]; 


else 


} 


public int rank(Key key) 
// 请 见 算 法 3.2( 续 1 ) 


public void put(Key key, Value val) 


return null; 


{ // 查找 键 , 找到 则 更 新 值 ， 否 则 创建 新 的 元 素 


int i = rank(key); 


if (i < N && keys[i].compareTo(key) == 0) 


{ vals[i] 
for (mnt 3 


val; return; +} 
Ni j > ii j--) 


ll 


{ keys[j] = keys[j-1]; vals[j] = vals[j-1]; } 


keys[i] = key; vals[i] = val; 
N++; 


} 


public void delete(Key key) 
// 该 方法 的 实现 请 见 练 习 3.1.16 


} 


这 段 符 号 表 的 实现 用 两 个 数组 来 保存 键 和 值 。 和 1.3 节 中 基于 数组 的 栈 一 样 ， 


put() 方法 会 在 插入 


新 元 素 前 将 所 有 较 大 的 键 向 后 移动 一 格 。 这 里 省 略 了 调整 数组 大 小 部 分 的 代码 。 


3.1.5.1 二 分 查找 


我 们 使 用 有 序数 组 存储 键 的 原因 是 ， 第 1 章 中 作为 例子 出 现 的 经 典 二 分 查找 法 能 够 根据 数组 的 


索引 大 大 减少 每 次 查找 所 需 的 比较 次 数 。 我 
们 会 使 用 有 序 索引 数组 来 标识 被 查找 的 键 可 
能 存在 的 子 数组 的 大 小 范围 。 在 查找 时 ,我 
们 先 将 被 查找 的 键 和 子 数组 的 中 间 键 比较 。 
如 果 被 查找 的 键 小 于 中 间 键 ， 我 们 就 在 左 子 
数组 中 继续 查找 ， 如 果 大 于 我 们 就 在 右 子 数 
组 中 继续 查找 ， 否 则 中 间 键 就 是 我 们 要 找 的 
键 。 算法 3.2 ( 续 1) 中 实现 rankQ 〇 方法 的 
代码 使 用 了 刚才 讨论 的 二 分 查找 法 。 这 个 实 
现 值得 我 们 仔细 研究 。 作 为 开始 ， 我 们 来 看 
看 这 段 等 价 的 递归 代码 。 


public int rank(Key key, int lo, int hi) 
{ 
nh lo retucnelos 
ne md lo Eh /2 
int cmp = key.compareTo(keys[mid]); 
下 他 (cmp < 0) 
return rank(key, 1o, mid-1); 
else if (cmp > 0) 
return rank(key, mid+1, hi); 
else return mid; 


递归 的 二 分 查找 


调用 这 里 的 rank(Ckey，0，N-1) 所 进行 的 比较 和 调用 算法 3.2〈 续 1 ) 的 实现 所 进行 的 比较 完 
全 相同 。 但 如 1.1 节 中 讨论 的 , 这 个 版 本 更 好 地 暴露 了 算法 的 结构 。 递归 的 rankQ 〇 保留 了 以 下 性 质 : 


口 如 果 表 中 存在 该 键 ，rankQ 应 该 返回 该 键 的 位 置 ， 也 就 是 表 中 小 于 它 的 键 的 数量 
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口 如 果 表 中 不 存在 该 键 ，rank() 还 是 应 该 返回 表 中 小 于 它 的 键 的 数量 。 

好 好 想 想 算法 3.2( 续 1 ) 中 非 递 归 的 rankQ 〇 为 什么 能 够 做 到 这 些 〈 你 可 以 证 明 两 个 版 本 的 等 
价 性 ， 或 者 直接 证 明 非 递归 版 本 中 的 循环 在 结束 时 1o 的 值 正 好 等 于 表 中 小 于 被 查找 的 键 的 键 的 数 
量 ) ， 所 有 程序 员 都 能 从 这 些 思考 中 有 所 收获 。 (提示 : 1o 的 初始 值 为 0， 且 永远 不 会 变 小 ) 


算法 3.2 〈 续 1) 基于 有 序数 组 的 二 分 查找 〈 和 迭代) 


public int rank(Key key) 


{ 
int lo = 0, hi = N-1; 
while (lo <= hi) 
{ 
int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(keys[mid]); 
IP (cmp < 0) hi = mid - 1; 
else if (cmp > 0) lo = mid + 1; 
else return mid; 
} 
return 1o; 
} 


该 方法 实现 了 正文 所 述 的 经 典 算 法 来 计算 小 于 给 定 键 的 键 的 数量 。 它 首先 将 key 和 中 间 键 比较 ， 如 
果 相 等 则 返回 其 索引 ;如 果 小 于 中 间 键 则 在 左 半 部 分 查找 ; 大 于 则 在 右 半 部 分 查找 。 


式 


keys[] 
对 P 的 命中 查找 0 1 2 3 4 5 6 7 8 9 
lo hi mid i 
元 人 

ov] 中 的 和 
2 Mb X、 黑色 加 组 的 元 素 是 
"0 P 中 间 键 a[mid] 

对 0 的 未 命中 查找 到、 中间 键 和 P 相 等 时 循环 退出 
lo hi mid 
0 9 4 ACE HL M P R S Xx 
5 9 7 M P R S Xx 
5 6 5 M P 
6 6 6 P 
7 6 


1oxhi 时 循环 退出 ， 返 回 7 
在 有 序数 组 中 使 用 二 分 法 查找 排名 的 轨迹 


算法 3.2 〈 续 2) 基于 二 分 查找 的 有 序 符号 表 的 其 他 操作 


public Key minO 
{ return keys[0]; 了 


public Key max() 
{ return keys[N-1]; } 


public Key select(int k) 
{ return keys[k]; } 
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public Key ceiling(Key key) 
{ 
int 1 = rank(key); 
return keys[i]; 


} 


public Key floor(Key key) 
// 请 见 练习 3.1.17 


public Key delete(Key key) 
// 请 见 练 习 3.1.16 


public Iterable<Key> keys(Key 1lo, Key hi) 
Queue<Key> qd = new Queue<Key>() ; 
for (Cint 1 = rank(l1lo); i < rank(hi); i++) 
dq.enqueue(keys[i]); 
if (contains (hi)) 
dq.enqueue(keys[rank(hi)]); 
return q; 


} 

这 些 方法 ， 以 及 练习 3.1.16 和 练习 3.1.17， 组 成 了 我 们 对 使 用 二 分 查找 的 有 序 符号 表 的 完整 实现 。 
min()、max() 和 select0() 方法 都 很 简单 ， 只 需 按照 给 定 的 位 置 从 数组 中 返回 相应 的 值 即 可 。rankO) 
方法 实现 了 二 分 查找 ， 是 其 他 方法 的 基石 。floor() 和 delete0) 方法 虽然 也 不 难 ， 但 稍微 复杂 一 些 ， 在 
此 留 做 练习 。 


3.1.5.2 ”其 他 操作 
因为 键 被 保存 在 有 序数 组 中 ,算法 3.2( 续 2) 中 和 顺序 有 关 的 大 多 数 操作 都 一 目 了 然 。 例 如 ， 
调用 select(k) 就 相当 于 返回 keys[k]。 我 们 将 delete() 和 fioor() 留 做 练习 。 你 应 该 研究 一 
380 下 ceiling() 和 带 两 个 参数 的 keys 0) 方法 的 实现 ， 并 完成 练习 来 巩固 和 加 深 你 对 有 序 符号 表 的 
382| API 及 其 实现 的 理解 。 


3.1.6 ”对 二 分 查找 的 分 析 


rankQ 的 递归 实现 还 能 够 让 我 们 立即 得 到 一 个 结论 : 二 分 查找 很 快 ， 因 为 递归 关系 可 以 说 明 
算法 所 需 比较 次 数 的 上 界 。 


命题 B。 在 NN 个 键 的 有 序数 组 中 进行 二 分 查找 最 多 需要 (1gN+1 ) 次 比较 (无论 是 否 成 功 ) 。 
证 明 。 这 里 的 分 析 和 对 归并 排序 的 分 析 (第 2 章 的 命题 F) 类 似 (但 相对 简单 ) 。 令 C(N) 为 
在 大 小 为 W 的 符号 表 中 查找 一 个 键 所 需 进 行 的 比较 次 数 。 显 然 我 们 有 C(0)=0，C(1)=1， 且 对 于 
N>0 我 们 可 以 写 出 一 个 和 递归 方法 直接 对 应 的 归纳 关系 式 : 

CN) < C(LMV21)+1 
无 论 查找 会 在 中 间 元 素 的 左 侧 还 是 右 侧 继续 ， 子 数组 的 大 小 都 不 会 超过 [|N/2] ， 我 们 需要 一 次 
比较 来 检查 中 间 元 素 和 被 查找 的 键 是 否 相 等 ， 并 决定 继续 查找 左 侧 还 是 右 侧 的 子 数组 。 当 入 为 
2 的 惫 减 1 时 (和 N=2”-1) ， 这 种 递 推 很 容易 。 首 先 ， 因 为 LV2|=2” -1， 所 以 我 们 有 : 

@2 C0 I 
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这 个 公式 代 换 不 等 式 右边 的 第 一 项 可 得 : 
人 人 EEC 


将 上 面 这 一 步 重 复 n-2 次 可 得 : 


C2"-1) < COQ) Hn 
最 后 的 结果 即 : 
C(N)=C(2") < nt+1<lgN+1 


对 于 一 般 的 N， 确 切 的 结论 更 加 复杂 ， 但 不 难 通 过 以 上 论证 推广 得 到 (请 见 练习 3.1.20) 。 二 
分 查找 所 需 时 间 必 然 在 对 数 范围 之 内 。 


刚才 给 出 的 实现 中 ，cei1ing() 只 是 调用 了 一 次 rank()， 而 接受 两 个 参数 的 默认 size() 
方法 调用 了 两 次 rank() ， 因 此 这 份 证 明 也 保证 了 这 些 
操作 (包括 floor() ) 所 需 的 时 间 最 多 是 对 数 级 别 的 
(min()、max() 和 select() 操作 所 需 的 时 间 都 是 常 二 ”YY 
数 级 别 的 ) 者 法 运行 所 需 时 间 的 383 


表 3.1.9 BinarySearchST 的 操作 的 成 本 


增长 数量 级 
尽管 能 够 保证 查找 所 需 的 时 间 是 对 数 级 别 
的 ,BinarysearchsT 仍 然 无 法 支持 我 们 用 类 似 。 0 
FrequencyCounter 的 程序 来 处 理 大 型 问题 ， 因 为 get() logN 
putQ 〇 方法 还 是 太 慢 了 。 二 分 查找 减少 了 比较 的 次 数 但 无 deleteQ) a 
法 减少 运行 所 需 时 间 ， 因 为 它 无 法 改变 以 下 事实 : 在 键 contains QO) logN 
是 随机 排列 的 情况 下 ， 构 造 一 个 基于 有 序数 组 的 符号 表 sizel() 1 
所 需要 访问 数组 的 次 数 是 数组 长 度 的 平方 级 别 ( 在 实际 minC) ， 
情况 下 键 的 排列 虽然 不 是 随机 的 ， 但 仍然 很 好 地 符合 这 
个 模型 ) 。BinarySearchsT 的 操作 的 成 本 如 表 3.1.9 所 示 。 We | 
floor0) logN 
命题 B〈 续 ) 。 向 大 小 为 N 的 有 序数 组 中 插入 一 个 ceilingC) logN 
新 的 元 素 在 最 坏 情况 下 需要 访问 ~2N 次 数组 ， 因 此 rank QO) logN 
向 一 个 空 符号 表 中 插入 N 个 元 素 在 最 坏 情况 下 需要 select(O) 1 
访问 ~ NM 次 数组 。 deleteMin() N 
证 明 。 同 命题 A。 deleteMax() 1 


对 于 含有 10’ 个 不 同 键 的 《双城记 》， 构 建 符号 表 需 要 访问 数组 约 10 次 ; 而 对 于 含有 10' 个 
不 同 键 的 Leipzig 项 目 则 需要 访问 数组 10" 次 。 虽 然 现 代 计 算 机 可 勉强 实现 ， 但 这 样 的 成 本 还 是 过 
高 了 。 

回头 看 看 FrequencyCounter 在 参数 为 8 时 putQ 〇 操作 的 性 能 ， 我 们 可 以 看 到 平均 情况 下 的 
比较 次 数 (包括 访问 数组 的 次 数 ) 从 SequentialSearchST 的 2246 次 降低 到 了 BinarySearchST 
的 484 次 (如 图 3.1.4 所 示 ) 。 这 比 我 们 在 分 析 中 预测 的 还 要 更 好 ， 额 外 的 部 分 可 能 能 够 再 次 通过 
应 用 的 性 质 得 到 解释 ( 请 见 练习 3.1.36 ) 。 这 次 改进 令 人 印象 深刻 , 但 你 会 看 到 , 我 们 还 能 做 得 更 好 。 
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385 


5737 一 


成 本 


0 


3.1.7 预览 


0 


| 
14350 


图 3.1.4 使 用 BinarySearchST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


一 般 情况 下 二 分 查找 都 比 顺序 查找 快 得 多 ， 它 也 是 众多 实际 应 用 程序 的 最 佳 选择 。 对 于 一 
个 静态 表 (不 允许 插入 ) 来 说 ， 将 其 在 初始 化 时 就 排序 是 值得 的 ， 如 第 1 章 中 的 二 分 查找 所 示 
(请 见 表 1.2.15) 。 即 使 查找 前 所 有 的 键 值 对 已 知 ( 这 在 应 用 程序 中 是 一 种 常见 的 情况 ) ,为 


BinarySearchST 添 加 一 
当然 ， 二 分 查找 也 不 适合 很 多 应 


表 3.1.10 给 出 了 本 节 中 


个 能 


够 初始 化 并 将 符号 表 排 序 的 构造 函数 也 是 有 意义 的 ( 请 见 练习 3.1.12 )。 

j。 例 如 ， 它 无 法 处 理 Leipzig Corpora 数据 库 ， 

作 是 混合 进行 的 ， 而 且 符号 表 也 太 大 了 。 如 我 们 所 强调 的 那样 ， 现 代 应 用 需要 同 

查找 和 插入 两 种 操作 的 符号 表 实 现 。 也 就 是 说 ， 我 们 需要 在 构造 庞大 的 符号 表 的 
(也 许 还 有 删除 ) 键 值 对 ， 同 时 也 要 能 够 完成 查找 操作 。 

介绍 的 符号 表 的 初级 实现 的 性 能 特点 。 表 中 给 出 的 是 总 成 本 中 的 最 高 级 


因为 查找 和 插入 操 
时 能 够 支持 高 效 的 
辣 时 能 够 任意 插 人 


项 (对 于 二 分 查找 是 数组 的 访问 次 数 ， 对 于 其 他 则 是 比较 次 数 ) ， 即 运行 时 间 的 增长 数量 级 。 


表 3.1.10 简单 的 符号 表 实现 的 成 本 总 结 


最 坏 情 况 下 的 成 本 平均 情况 下 的 成 本 
算法 (数据 结构 ) (NV 次 插入 后 ) (NV 次 随机 插入 后 ) 0 
找 插 找 插 
顺序 查找 ( 无 序 链表 ) N N N/2 N 否 
二 分 查找 ( 有 序数 组 ) lgN 2N leN N 是 


核心 的 问题 在 于 我 们 能 否 找 到 能 够 同时 保证 查找 和 插入 操作 都 是 对 数 级 别 的 算法 和 数据 结构 。 
答案 是 令 人 兴奋 的 “可 以 ”! 这 个 答案 也 正 是 本 章 的 重点 所 在 。 和 第 2 章 讨 论 的 高 效 排序 算法 一 样 ， 
能 够 高 效 地 查找 和 插入 的 符号 表 是 算法 领域 对 世界 最 重要 的 贡献 之 一 ， 也 是 我 们 今天 能 够 享受 的 丰 


富 计算 性 基础 设施 的 开发 基础 。 


我 们 如 何 能 够 实现 这 个 目标 呢 ?” 要 支持 高 效 的 插入 操作 ， 我 们 似乎 需要 一 种 链 式 结构 。 但 单 链 


接 的 链表 是 无 法 使 用 二 分 查找 法 的 ， 因 为 二 分 查找 的 高 效 来 自 于 能 够 快速 通过 索 纪 


取得 任何 子 数组 


的 中 间 元 素 ( 但 得 到 一 条 链表 的 中 间 元 素 的 唯一 方法 只 能 是 沿 链表 遍历 ) 。 为 了 将 二 分 查找 的 效率 


和 链表 的 灵活 性 结合 


起 来 ,我 们 需要 更 加 复杂 的 数据 结构 。 能 够 同时 志 


它 也 是 我 们 下 面 两 节 的 主题 。 我 们 会 将 散 列 表 留 到 3.4 节 中 讨论 。 


有 两 者 的 训 


i 是 二 又 查找 树 ， 
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在 本 章 中 我 们 会 学 习 6 种 符号 表 的 实现 ， 这 里 我 们 先 给 出 一 个 简单 的 预览 。 表 3.1.11 包含 一 系 


列 数据 结构 以 及 它们 适用 和 不 适用 于 某 个 应 用 场景 的 原因 ， 按 照 我 们 学 习 它 们 的 先后 顺序 排列 。 


表 3.1.11 符号 表 的 各 种 实现 的 优 缺 点 


使 用 的 数据 结构 实 现 优 点 缺 ”点 
链表 ( 顺序 查找 ) ” SequentialSearchST 适用 于 小 型 问题 对 于 大 型 符号 表 很 慢 

最 优 的 查找 效率 和 空间 需 
有 全 数组 (二 分 “BinarySearchsT 求 ， 能 够 进行 有 序 性 相关 。 插入 操作 很 慢 
查 的 操作 
ee 实现 简单 ， 能 够 进行 有 序 ”没有 性 能 上 界 的 保证 
二 又 碍 找 树 BT 性 相关 的 操作 链接 需要 额外 的 空间 
了 最 优 的 查找 和 插入 效率 ,能 。 wasp os wo， 
衡 二 又 查找 树 ” RedBlackBST 够 进行 有 序 性 相关 的 操作 链接 需要 额外 的 空间 

需要 计算 每 种 类 型 的 数据 的 散 列 


散 列表 SeparateChainHashST ”能 够 快速 地 查找 和 插入 常 


无 法 进行 有 序 性 相关 的 操作 


Ce 链接 和 空 结 点 需要 额外 的 空间 


在 学 习 中 我 们 会 仔细 了 解 每 种 算法 和 实现 的 各 种 性 质 ， 这 里 的 简单 特性 是 为 了 帮助 你 在 学 习 它 


们 的 同时 能 够 从 全 局 的 高 度 来 理解 它们 。 一 句 话 ， 我 们 有 若干 种 高 效 的 符号 表 实 现 ， 它 们 能 够 并 且 
已 经 被 应 用 于 无 数 程序 之 中 了 。 


为 什么 符号 表 不 像 2.4 节 中 优先 队列 那样 使 用 一 个 Comparable 的 Item 类 型 ， 而 是 对 于 键 和 值 使 用 
不 同 的 数据 类 型 ? 

这 的 确 是 一 种 可 行 的 办 法 。 这 两 者 代表 了 将 键 和 值 关 联 起 来 的 两 种 不 同方 式 一 一 我 们 可 以 构造 一 
种 将 键 包 含 在 其 中 的 数据 结构 来 隐 式 关联 键 值 或 是 显 式 地 将 键 和 值 区 分 开 来 。 对 于 符号 表 ， 我 们 
选择 突出 关联 数组 的 抽象 形式 。 同 时 也 请 注意 ， 符 号 表 的 用 例 在 查找 时 只 会 指定 一 个 键 ， 而 非 一 
个 键 值 对 。 

为 什么 要 用 equals() ? 为 什么 不 一 直 使 用 compareTo()? 

并 不 是 所 有 的 数据 产生 的 键 值 对 都 能 够 进行 比较 ， 尽 管 有 时 候 将 它们 保存 在 符号 表 可 以 。 举 一 个 比 
较 极 端的 例子 , 你 可 能 会 用 一 幅 照 片 或 者 一 首 歌 作 为 键 , 但 没 法 比较 它们 , 只 能 知道 它们 是 否 相 等 (也 
要 花 点 儿 工 夫 ) 。 

为 什么 键 的 值 不 能 为 空 (nu11 ) ? 

因为 我 们 会 用 Key 调用 compareTo() 或 者 equals 0) 方法 ， 因 此 我 们 假设 它 是 一 个 0bject。 但 是 
当 a 为 nul1 时 a.compareTo(b) 会 抛 出 一 个 空 指针 异常 。 如 果 能 消除 这 种 可 能 性 ， 用 例 的 代码 能 够 
为 什么 不 和 排序 一 样 使 用 一 个 类 似 于 lessQ 〇 的 方法 ? 

在 符号 表 中 等 价 性 比较 特殊 ， 因 此 我 们 还 需要 一 个 方法 来 测试 等 价 性 。 为 了 避免 增加 本 质 上 功能 相 
同 的 方法 ， 我 们 使 用 了 Java 内 置 的 equals() 和 compareTo()。 

在 BinarySearchST 中 的 类 型 转换 之 前 ， 为 什么 不 将 keys[] 和 vals[] 一 样 声 明 为 Object[] (而 
是 Comparable[] ) ? 


386 
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388 


问 得 好 。 如 果 你 这 么 做 ， 你 会 得 到 一 个 ClassCastException， 因 为 键 只 能 是 Comparable 的 (以 
保证 keys[] 中 的 元 素 都 有 compareTo() 方法 ) 。 因 此 将 keys[] 声明 为 Comparable[] 是 必需 的 。 
深入 程序 语言 的 设计 细节 来 解释 这 里 的 原因 可 能 会 有 些 跑题 。 在 本 书 所 有 使 用 泛 型 的 Comparable 
对 象 和 数组 的 代码 中 我 们 都 会 照 此 办 理 。 

如 果 我 们 需要 将 多 个 值 关联 到 同一 个 键 怎么 办 ?” 例如， 如 果 我 们 在 应 用 程序 中 用 Date 日 期 作为 键 ， 
那 不 会 需要 处 理 重 复 的 键 吗 ? 
可 能 会 ， 也 可 能 不 会 。 例 如 ， 两 列 火车 不 可 能 同时 在 同一 条 轨道 上 到 达 同 一 个 车 站 (但 它们 可 以 在 
不 同 的 铁轨 上 同时 到 站 ) 。 处 理 这 种 情形 有 两 个 办 法 : 用 其 他 信息 来 消除 重复 或 者 使 用 Queue 类 型 
来 存储 所 有 有 相同 键 的 值 。 我 们 会 在 3.5 节 中 详细 讨论 符号 表 的 应 用 。 

3.1.7 节 中 将 表 预 排序 的 想法 看 起 来 是 个 好 主意 ， 为 什么 把 它 留 作 一 道 练 习 (请 见 练习 3.1.12 ) ? 
的 确 , 在 某 些 应 用 中 它 确实 是 最 佳 的 选择 。 但 在 一 个 希望 实现 快速 查找 的 数据 结构 中 为 了 “图 方便 ” 
而 加 入 一 个 低 效 的 插入 方法 会 变 成 一 个 性 能 陷阱 ， 因 为 一 个 普通 用 例 可 能 会 在 一 张 很 大 的 表 中 混 
合 使 用 查找 和 插入 操作 却 发 现 运行 所 需 的 时 间 是 平方 级 别 的 。 这 种 陷阱 太 常 见 了 ， 因 此 当 你 使 月 
他 人 开发 的 软件 ， 尤 其 是 接口 繁多 时 ， 你 应 该 加 倍 小 心 。 当 对 象 含有 大 量 “ 便 捷 ” 方 法 而 导致 到 
处 都 是 性 能 陷阱 ， 而 用 例 却 可 能 认为 所 有 的 方法 都 同样 高 效 时 ， 这 个 问题 就 非常 严重 了 。Java 的 
ArrayList 类 就 是 这 样 的 一 个 例子 ( 请 见 练习 3.5.27 ) 。 


互 


| 


二 


图 练习 
3.1.1 编写 一 段 程序 ， 创 建 一 张 符号 表 并 建立 字母 成 绩 和 数值 分 数 的 对 应 关系 ， 如 下 表 所 示 。 从 标准 答 


入 读 取 一 系列 字母 成 绩 ， 计 算 并 打印 GPA( 字母 成 绩 对 应 的 分 数 的 平均 值 ) 。 


A+ | A A | Bt| 下 | 本 | tt| |&| Ds| F 
433 | 4.00 3.67 | 333 | 3.00 | 2.67 | | 2.00 | 1.67 | 1.00 | 0.00 


3.1.2 ”开发 一 个 符号 表 的 实现 ArrayST， 使 用 (无 序 ) 数组 来 实现 我 们 的 基本 API。 
3.1.3 开发 一 个 符号 表 的 实现 0rderedSequentialSearchST， 使 用 有 序 链表 来 实现 我 们 的 有 序 符 号 表 


API。 


3.1.4 开发 抽象 数据 类 型 Time 和 Event 来 处 理 表 3.1.5 中 的 例子 中 的 数据 。 
3.1.5 实现 SequentialSearchST 中 的 size()、delete() 和 keys0 方法 。 
3.1.6 用 输入 中 的 单词 总 数 玉 和 不 同 单词 总 数 DD 的 函数 给 出 FrequencyCounter 调用 的 put() 和 


getQ 〇 方法 的 次 数 。 


3.1.7 对 于 和 N=10、10、1、10*、10” 和 10"， 在 入 个 小 于 1000 的 随机 非 负 整数 中 FrequencyCounter 平 


均 能 够 找到 多 少 个 不 同 的 键 ? 


3.1.8 在 《双城记 》 中 ， 使 用 频率 最 高 的 长 度 大 于 等 于 10 的 单词 是 什么 ? 
3.1.9 在 FrequencyCounter 中 添加 追踪 putQ 方法 的 最 后 一 次 调用 的 代码 。 打 印 出 最 后 插入 的 那个 


单词 以 及 在 此 之 前 总 共 从 输入 中 人 处理 了 多 少 个 单词 。 用 你 的 程序 处 理 tale.txt 中 长 度 分 别 大 于 等 于 
1、8 和 10 的 单词 。 


3.1.10 给 出 用 SequentialSearchST 将 键 E ASYQUESTIO0ON 搬 入 一 个 空 符号 表 的 过 程 的 轨迹 。 


共 进 行 了 多 少 次 比较 ? 


3.1.11 给 出 用 BinarySearchST 将 键 EASYQUESTION 搬 入 一 个 空 符号 表 的 过 程 的 轨迹 。 一 


3.1.12 


3.1.13 


3.1.14 


3.1.15 


3.1.16 


区 本 了 


ie18 


os.19 
3.1.20 


图 提高 


3.1.21 


3.1.22 


3.1.23 


3.1.24 


3.1.25 
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共 进 行 了 多 少 次 比较 ? 

修改 BinarySearchST， 用 一 个 Item 对 象 的 数组 而 非 两 个 平行 数组 来 保存 键 和 值 。 添 加 一 个 构 
造 函 数 ， 接 受 一 个 Item 的 数组 为 参数 并 将 其 归并 排序 。 

对 于 一 个 会 随机 混合 进行 10 次 putQO 和 10" 次 getQ 〇 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 
对 于 一 个 会 随机 混合 进行 10 次 put QO 和 10 次 getQ 〇 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

假设 在 一 个 BinarySearchsT 的 用 例 程 序 中 ， 查 找 操作 的 次 数 是 插入 操作 的 1000 倍 。 当 分 别 进 
行 10、10 和 10 次 查找 时 ， 请 估计 插入 操作 在 总 耗 时 中 的 比例 。 

为 BinarySearchST 实现 delete() 方法 。 

为 BinarySearchST 实现 floor0 方法 。 
证 明 BinarySearchST 中 rankQ 方法 的 实现 的 正确 性 。 
修改 FrequencyCounter， 打 印 出 现 频 率 最 高 的 所 有 单词 ， 而 非 其 中 之 一 。 提 示 : 请 用 Queue。 
补 全 命题 B 的 证 明 (证 明 N 的 一 般 情况 ) 。 提 示 : 先 证 明 CCV) 的 单调 性 ， 即 对 于 所 有 的 N>0， 
CO < CN+1) 


呈 


题 


内 存 使 用 。 基 于 14 节 中 的 假设 ,对 于 NN 对 键 值 比较 BinarySearchST 和 SequentialSearchST 的 内 
存 使 用 情况 。 不 需要 记录 键 值 本 身 占用 的 内 存 ， 只 统计 它们 的 引用 。 对 于 BinarySearchST， 假 
设 数组 大 小 可 以 动态 调整 ， 数 组 中 被 占用 的 空间 比例 为 23% 一 100%。 

自 组 织 查 找 。 自 组 织 查找 指 的 是 一 种 能 够 将 数组 元 素 重 新 排序 使 得 被 访问 频率 较 高 的 元 素 更 容 
易 被 找到 的 查找 算法 。 请 修改 你 为 练习 3.1.2 给 出 的 答案 ， 在 每 次 查找 命中 时 : 将 被 找到 的 键 值 
对 移动 到 数组 的 开头 ， 将 所 有 中 间 的 键 值 对 向 右 移动 一 格 。 这 个 启发 式 的 过 程 被 称 为 前 移 编码 。 
二 分 查找 的 分 析 。 请 证 明 对 于 大 小 为 的 符号 表 ， 一 次 二 分 查找 所 需 的 最 大 比较 次 数 正 好 是 N 
的 二 进 制 表示 的 位 数 ， 因 为 右 移 一 位 的 操作 会 将 二 进 制 的 Y 变 为 二 进 制 的 [N/2]。 

插值 法 查找 。 假 设 符号 表 的 键 支 持 算术 操作 〈 例如， 它们 可 能 是 Double 或 者 Interger 类 型 的 
值 ) 。 编 写 一 个 二 分 查找 来 模拟 查 字 典 的 行为 ， 例 如 当 单 词 的 首 字 母 在 字母 表 的 开头 时 我 们 也 
会 在 字典 的 前 半 部 分 进行 查找 。 具 体 来 说 ， 设 右 为 符号 表 的 第 一 个 键 ，% 为 符号 表 的 最 后 一 个 
键 ， 当 要 查找 玉 时 ， 先 和 [ky(h-kw)] 进行 比较 ， 而 非 取 中 间 元 素 。 用 SearchCompare " 调 
用 FrequencyCounter 来 比较 你 的 实现 和 BinarySearchsT 的 性 能 。 

缓存 。 因 为 默认 的 contains (0) 的 实现 中 调用 了 get()， 所 以 FrequencyCounter 的 内 循环 会 将 
同一 个 键 查找 两 三 遍 : 


if (!st.contains(Cword)) st.put(word, 1); 
else st.put(word, st.get(word) + 1); 


为 了 能 够 提高 这 样 的 用 例 代 码 的 效率 ， 我 们 可 以 用 一 种 叫 缓存 的 技术 手段 ， 即 将 访问 最 频繁 的 
键 的 位 置 保存 在 一 个 变量 中 。 修 改 SequentialSearchST 和 BinarySearchST 来 实现 这 个 点 子 。 


中 SearchCompare 应 该 是 一 个 类 似 于 SortCompare 的 类 ， 但 实际 上 正文 
pare 类 的 内 容 。 一 一 译 者 注 


F 没 有 任何 关于 这 个 SearchCom- 


UD 
bh- 
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3.1.26 基于 字典 的 频率 统计 。 修 改 FrequencyCounter， 接 受 一 个 字典 文件 作为 参数 ， 统 计 标 准 输入 中 
出 现在 字典 中 的 单词 的 频率 ， 并 将 单词 和 频率 打印 为 两 张 表 格 ， 一 张 按照 频率 高 低 排 序 ， 一 张 
按照 字典 顺序 排序 。 

3.1.27 ”小 符号 表 。 假 设 一 段 BinarySearchsT 的 用 例 插 人 了 N 个 不 同 的 键 并 会 进行 $ 次 查找 。 当 构造 
表 的 成 本 和 所 有 查找 的 总 成 本 相同 时 ， 给 出 8 的 增长 数量 级 。 

3.1.28 ”有 序 的 插入 。 修 改 BinarySearchST， 使 得 插入 一 个 比 当 前 所 有 键 都 大 的 键 只 需要 常数 时 间 ( 这 

样 在 构造 符号 表 时 有 序 地 使 用 put (0) 插入 键 值 对 就 只 需要 线性 时 间 了 ) 

3.1.29 ”测试 用 例 。 编 写 一 段 测 试 代码 TestBinarySearch.java 用 来 测试 正文 中 min()、max()、floorO、 
ceiling()、select()、rank()、deleteMin()、deleteMax() 和 keys0 的 实现 ,可 以 参考 3.1.3.1 
节 的 索引 用 例 ， 添 加 代码 使 其 在 适当 的 情况 下 接受 更 多 的 命令 行 参数 。 
3.1.30 验证 。 向 BinarySearchST 中 加 入 断言 (assert ) 语句 ， 在 每 次 插入 和 删除 数据 后 检查 算法 的 有 
效 性 和 数据 结构 的 完整 性 。 例 如 ， 对 于 每 个 索引 必 有 i==rank(Cselect(i)) 上 且 数组 应 该 总 是 有 
392 序 的 。 


图 实验 是 


3.1.31 性 能 测试 。 编 写 一 段 性 能 测试 程序 ， 先 用 put 〇 构造 一 张 符号 表 ， 再 用 getQ 进行 访问 ,使 得 
表 中 的 每 个 键 平均 被 命中 10 次 ， 且 有 大 致 相同 次 数 的 未 命中 访问 。 键 为 长 度 从 2 到 50 不 等 的 
随机 字符 串 。 重 复 这 样 的 测试 知 干 遍 ， 记 录 每 遍 的 运行 时 间 ， 打 印 平均 运行 时 间或 将 它们 绘 天 
3.1.32 练习。 编写 一 段 练习 程序 ， 用 困难 或 者 极端 的 但 在 实际 应 用 中 可 能 出 现 的 情况 来 测试 我 们 的 有 
序 符号 表 API。 一 些 简单 的 例子 包括 有 序 的 键 列 、 逆 序 的 键 列 、 所 有 键 全 部 相同 或 者 只 含有 两 种 
不 同 的 值 。 
3.1.33 自 组 织 查找 。 编 写 一 段 程序 调用 自 组 织 查 找 的 实现 〈 请 见 练习 3.1.22 ) ， 用 putQ 〇 构造 一 个 大 
小 为 Y 的 符号 表 ， 然 后 根据 预先 定义 好 的 概率 分 布 进行 10N 次 命中 查找 。 对 于 NE10 、10 、10” 
和 10"， 用 这 有 段 程 序 比较 你 在 练习 3.1.22 中 的 实现 和 BinarySearchST 的 运行 时 间 ， 在 预定 义 的 
概率 分 布 中 查找 命中 第 i 小 的 键 的 概率 为 1/2 。 
3.1.34 ”Zipf 法 则 。 用 命中 第 i 小 的 键 的 概率 为 (iHy) 的 分 布 重 新 完成 上 一 道 练习 ， 其 中 Hy 为 调和 级 数 
( 请 见 表 1.4.6 ) 。 这 种 分 布 被 称 为 Zipf 法 则 。 比 较 前 移 编码 和 上 一 道 练习 中 的 在 特定 分 布下 的 
最 优 安排 ,该 安排 将 所 有 键 按 升序 排列 ( 即 按照 它们 的 期 望 频率 的 降序 排列 ) 。 
3.1.35 ”性 能 验证 I。 用 各 种 不 同 的 N 运行 双 倍 测试 ， 取 《双城记 》 的 前 Y 个 单词 ， 验 证 FrequencyCounter 
在 使 用 SequentialSearchST 时 所 需 的 运行 时 间 是 w 的 平方 级 别 的 猜想 。 
3.1.36 ”性 能 验证 II, 解释 FrequencyCounter 在 使 用 BinarySearchST 时 比 使 用 SequentialSearchSsT 时 
的 性 能 提高 程度 好 于 预期 的 原因 。 
3.1.37 put/get 的 比例 。 当 FrequencyCounter 使 用 BinarySearchST 在 100 万 个 长 度 为 M 个 二 进 


一 济 


393 位 的 随机 整数 中 统计 每 个 值 的 出 现 频率 时 ， 根 据 经 验 判 断 BinarySearchST 中 putQ 操作 和 


get() 操作 的 耗 时 比 ， 其 中 M=10、20 和 30。 再 统计 tale.txt 并 评估 耗 时 比 ， 并 比较 两 次 的 结果 。 
3.1.38 均 挫 成 本 图 。 修改 FrequencyCounter、SequentialSearchST 和 BinarySearchST， 统 计 计算 中 
每 次 putQ 〇 ， 操作 的 成 本 并 生成 类 似 本 节 所 示 的 图 。 
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3.1.39 实际 耗 时 。 修 改 FrequencyCounter， 用 Stopwatch 和 StdDraw 绘图 ， 其 中 x 轴 为 get() 和 


3.1.40 


3.1.41 


putQ 的 调用 次 数 之 和 , 7 轴 


为 总 运行 时 间 ， 每 次 调用 时 就 根据 已 运行 时 间 画 一 个 点 。 分 别 用 


SequentialSearchST 和 BinarySearchST 处 理 《 双 城 记 》 并 讨论 运行 的 结果 。 注 意 : 曲线 中 突 


然 的 跳 牙 可 能 是 缓存 导致 的 ， 


这 已 经 超出 了 这 个 问题 的 讨论 范围 。 


二 分 查找 的 临界 点 。 找 出 使 用 二 分 查找 比 顺序 查找 要 快 10 000 倍 和 1000 倍 的 入 值 。 分析 并 预测 


和 的 大 小 并 通过 实验 验证 它 。 


插值 查找 的 临界 点 。 找 出 使 


插值 查找 比 二 分 查找 要 快 1 倍 、2 倍 和 10 倍 的 Y 值 ， 其 中 假设 所 


有 键 为 随机 的 32 二 进位 整数 


( 请 见 练习 3.1.24 ) 。 分 析 并 预测 v 的 大 小 并 通过 实验 验证 它 。 
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3.2 ”二 又 查找 树 


在 本 节 中 我 们 将 学 习 一 种 能 够 将 链表 插入 的 灵活 性 和 有 序数 组 查找 的 高 效 性 结合 起 来 的 符号 表 
实现 。 具 体 来 说 ， 就 是 使 用 每 个 结 点 含有 两 个 链接 ( 链表 中 每 个 结 点 只 含有 一 个 链接 ) 的 二 又 查找 
树 来 高 效 地 实现 符号 表 ， 这 也 是 计算 机 科学 中 最 重要 的 算法 之 

首先 ， 我 们 需要 定义 一 些 术语 。 我 们 所 使 用 的 数据 结构 由 


结 点 组 成 , 结 点 包含 的 链接 可 以 为 空 (nu11 ) 或 者 指向 其 他 结 点 。 要 多 克 
在 二 又 树 中 ,每 个 结 点 只 能 有 一 个 父 结 点 ( 只 有 一 个 例外 ， 也 就 一 条 友人 接 一 
是 根 结 点 ， 它 没有 父 结 点 ) ， 而且 每 个 结 点 都 只 有 左右 两 个 链接 ， “一 RN 

分 别 指向 自己 的 左 子 结 点 和 右 子 结 点 ( 如 图 3.2.1 所 示 ) 。 尽 管 和 a 
链接 指向 的 是 结 点 ， 但 我 们 可 以 将 每 个 链接 看 做 指向 了 另 一 棵 二 右 子 结 点 
又 树 ， 而 这 棵 树 的 根 结 点 就 是 被 指向 的 结 点 。 因 此 我 们 可 以 将 二 的 人 


又 树 定义 为 一 个 空 链接 ， 或 者 是 一 个 有 左右 两 个 链接 的 结 点 ， 每 
个 链接 都 指向 一 棵 ( 独立 的 ) 子 二 又 树 。 在 二 又 查找 树 中 ， 每 个 
结 点 还 包含 了 一 个 键 和 一 个 值 ， 键 之 间 也 有 顺序 之 分 以 支持 高 效 的 查找 。 


图 3.2.1 详解 二 又 树 


定义 。 一 棵 三 又 查找 树 (BST ) 是 一 棵 二 又 树 , 其 中 每 个 结 点 都 含有 一 个 Comparable 的 键 (以 
及 相关 联 的 值 ) 且 每 个 结 点 的 键 都 大 于 其 左 子 树 中 的 任意 结 点 的 键 而 小 于 右 子 树 的 任意 结 点 
的 键 。 


我 们 在 画 出 二 叉 查 找 树 时 会 将 键 写 在 结 点 上 。 我 们 使 用 A 和 R 的 父 结 点 刍 
“A 是 EE 的 左 子 结 点 ”的 说 法 用 刍 指 代 结 点 。 我 们 用 连接 I 
结 点 的 线 表示 链接 ， 并 将 键 对 应 的 值 写 在 结 点 旁边 ( 若 值 不 GS CL 
确定 则 省 略 ) 。 除 了 空 结 点 只 表示 为 向 下 的 一 条 线段 以 外 ， 应 的 值 


每 个 结 点 的 链接 都 指向 它 下 方 的 结 点 。 和 以 前 一 样 ， 我 们 在 7 
例子 中 只 会 使 用 索引 测试 用 例 生 成 的 单个 字母 作为 键 ， 如 图 比 E 小 的 键 比 E 大 的 键 
图 3.2.2 详解 二 又 查找 树 
3.2.1 基本 实现 

算法 3.3 定义 了 二 又 查找 树 (BST ) 的 数据 结构 ， 我 们 会 在 本 节 中 用 它 实现 有 序 符号 表 的 
API。 首 先 我 们 要 研究 一 下 这 个 经 典 的 数据 类 型 ， 以 及 与 它 的 特点 紧密 相关 的 get() ( 查找) 和 
put() (插入 ) 方法 的 实现 。 
3.2.1.1 数据 表示 

和 链表 一 样 ， 我 们 内 套 定义 了 一 个 和 有 类 来 表示 二 又 查找 树 上 的 一 个 结 点 。 每 个 结 点 都 含有 一 
个 键 、 一 个 值 、 一 条 左 链接 、 一 条 右 链 接 和 一 个 结 点 计数 器 ( 有 需要 时 我 们 会 在 图 中 将 结 点 计数 器 
的 值 写 在 结 点 上 方 ) 。 左 链接 指向 一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 叉 查 找 树 ， 碳 链接 指向 一 棵 
由 大 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 树 。 变 量 N 给 出 了 以 该 结 点 为 根 的 子 树 的 结 点 总 数 。 你 将 会 
看 到 ， 它 简化 了 许多 有 序 符号 表 的 操作 的 实现 。 算 法 3.3 中 实现 的 私有 方法 size0) 会 将 空 链接 的 
值 当 作 0， 这 样 我 们 就 能 保证 以 下 公式 对 于 二 又 树 中 的 任意 结 点 x 总 是 成 立 。 


size(x) = size(x.left) + size(x.right) + 1 
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一 棵 二 又 查找 树 代 表 了 一 组 键 ( 及 其 相应 的 值 ) 的 集合 ， 而 同 
合 可 以 用 多 棵 不 同 的 二 又 查找 树 表 示 〈 如 几 3.2.3 所 示 ) 。 如 
果 我 们 将 一 棵 二 又 查找 树 的 所 有 键 投影 到 一 条 直线 上 ， 保 证 一 个 结 
点 的 左 子 树 中 的 键 出 现在 它 的 左边 , 右 子 树 中 的 键 出 现在 它 的 右边 ， 
那么 我 们 一 定 可 以 得 到 一 条 有 序 的 键 列 。 我 们 会 利用 二 又 查找 树 的 
这 种 天 生 的 灵活 性 ， 用 多 棵 二 又 查找 树 表示 同一 组 有 序 的 键 来 实现 
构建 和 使 用 二 又 查找 树 的 高 效 算法 。 
3.2.1.2 ”查找 

一 般 来 说 ， 在 符号 表 中 查找 一 个 键 可 能 得 到 两 种 结果 。 如 果 含 
有 该 键 的 结 点 存在 于 表 中 ,我 们 的 查找 就 命中 了 ,然后 返回 相应 的 值 。 
否则 查找 未 命中 ( 并 返回 nu11 ) 。 根 据 数 据 表示 的 递归 结构 我 们 马 
上 就 能 得 到 ， 在 二 又 查找 树 中 查找 一 个 键 的 递归 算法 : 如 果树 是 空 
的 , 则 查找 未 命中 ;如 果 被 查找 的 键 和 根 结 点 的 键 相 等 , 查找 命中 ， 


结 点 计 


boy 


泛 


= 个 


器 的 值 N 


二 又 查找 树 二 251 


否则 我 们 就 ( 递归 地 ) 在 适当 的 子 树 中 继续 查找 。 如 果 被 查找 的 键 
较 小 就 选择 左 子 树 ， 较 大 则 选择 右 子 树 。 算 法 3.3( 续 1) 中 递归 的 
get( 方法 完全 实现 了 这 段 算法 。 它 的 第 一 个 参数 是 一 个 结 点 ( 子 树 的 根 结 点 ) ， 


被 查找 的 键 。 代 码 会 保证 只 有 该 结 点 所 表示 的 子 树 


两 棵 能 够 表示 同一 
组 键 的 二 又 查找 树 
第 二 个 参数 是 
会 含有 和 被 查找 的 键 相 等 的 结 点 。 和 二 分 查 


找 中 每 次 迭代 之 后 查找 的 区 间 就 会 减 半 一 样 ， 在 二 义 查 找 树 中 ， 随 着 我 们 不 断 向 下 查找 ， 当 前 结 


点 所 表示 的 子 树 的 大 小 也 在 减 小 ( 理想 情况 下 是 减 半 ， 
被 查找 的 键 的 结 点 (命中 ) 或 者 当前 子 树 变 为 空 ( 未 命 


但 至 少 会 有 一 个 结 点 ) 。 当 找到 一 个 含有 


中 ) 时 这 个 过 程 才 会 结束 。 从 根 结 点 开始 ， 


在 每 个 结 点 中 查找 的 进程 都 会 递归 地 在 它 的 一 个 子 结 点 上 展开 ， 因 此 一 次 查找 也 就 定义 了 树 的 一 


条 路 径 。 对 于 命中 的 查 
点 是 一 个 空 链接 ， 如 图 


找 ， 路 径 在 含有 被 查找 的 键 的 结 点 处 结束 。 对 于 未 命中 的 查找 ， 路 径 的 终 
3.2.4 所 示 。 


查找 R， 命 中 查找 T， 未 命中 


R 小 于 ?， 因 此 继续 


在 左 子 树 中 查找 T 比 S 大 ， 因 此 继 
黑色 的 结 点 有 可 能 续 在 右 子 树 中 查找 
和 被 查找 的 键 匹配 

@ 人 内 

灰色 的 结 点 不 能 \ 

续 在 右 子 树 中 查找 在 左 子 树 中 查找 


链接 为 空 ， 因 


Ca 找到 了 R (命中 
返回 相应 的 值 


~ 一 


图 3.2.4 二 又 查找 树 中 的 查找 命中 〈 左 ) 和 未 命中 〈 右 ) 


在 树 中 (未 命中 ) 


此 T 不 
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算法 3.3 ”基于 二 又 查找 树 的 符号 表 


public class BST<Key extends Comparable<Key>, Value> 


{ 


} 


private Node root; // 二 又 查找 树 的 根 结 点 
private class Node 
{ 
private Key key; // 键 
private Value val; // 值 
private Node left, right; // 指向 子 树 的 链接 
private int N; // 以 该 结 点 为 根 的 子 树 中 的 结 点 总 数 
public Node(Key key, Value val, int N) 
{ this.key = key; this.val = val; this.N = N; } 
} 


public int size(0) 
{ _ return sizeCroot); 了 


private int size(Node x) 

{ 
if (x == null) return 0; 
else return x.N; 


} 


public Value get(Key key) 
// 请 见 算法 3.3 ( 续 1 ) 


public void put(Key key, Value val) 
// 请 见 算法 3.3( 续 1 ) 


// max()、min()、floor()、ceiling() 方 法 请 见 算 法 3.3 ( 续 2 ) 
// select() 、rank() 方 法 请 见 算法 3.3 ( 续 3 ) 

// delete() 、deleteMin() 、deleteMax() 方 法 请 见 算法 3.3 ( 续 4) 
// keys() 方 法 请 见 算 法 3.3 ( 续 5 ) 


这 段 代码 用 二 叉 查 找 树 实 现 了 有 序 符号 表 的 API, 树 由 Node 对 象 组 成 ， 每 个 对 象 都 含有 一 对 键 值 、 
两 条 链接 和 一 个 结 点 计数 器 N。 每 个 Node 对 象 都 是 一 棵 含有 N 个 结 点 的 子 树 的 根 结 点 ， 它 的 左 链接 指向 
一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 树 ， 右 链接 指向 一 棵 由 大 于 该 结 点 的 所 有 键 组 成 的 二 又 查找 
树 。root 变量 指向 二 又 查找 树 的 根 结 点 Node 对 象 ( 这 棵 树 包 含 了 符号 表 中 的 所 有 键 值 对 ) 。 本 节 会 陆 
续 给 出 其 他 方法 的 实现 。 


算法 3.3( 续 1) 的 实现 过 程 如 下 所 示 。 


算法 3.3 ( 续 1) ”二 又 查 找 树 的 查找 和 排序 方法 的 实现 


public Value get(Key key) 


‘ 


return get(root, key); } 


private Value get(Node x, Key key) 


{ 


// 在 以 X 为 根 结 点 的 子 树 中 查找 并 返回 key 所 对 应 的 值 ; 
// 如 果 找 不 到 则 返回 nu11 

if (x == null) return null; 

int cmp = key.compareTo(x.key); 


了 下 (cmp < 0) return get(x.left, key); 
else if (cmp > 0) return get(x.right, key); 
else return x.val; 


} 


public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 它 的 值 ， 否 则 为 它 创建 一 个 新 的 结 点 
root = put(root, key, val); 

} 


private Node put(Node x, Key key, Value val) 
{ 
// 如 果 key 存 在 于 以 X 为 根 结 点 的 子 树 中 则 更 新 它 的 值 ; 
// 否则 将 以 key 和 val 为 键 值 对 的 新 结 点 插入 到 该 子 树 中 
if (x == null) return new Node(key, val, 1); 
int cmp = key.compareTo(x.key); 
if (cmp < 0) x.left = put(x.left, 


else x.val = val; 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


= key, val); 
else if (cmp > 0) x.right = put(x.right, key, val); 
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这 上段 代码 实现 了 有 序 符号 表 API 中 的 put() 和 getQ 方法 ， 它 们 的 递归 实现 也 是 本 章 稍 后 将 会 讨论 
的 其 他 几 种 实现 的 模板 。 每 个 方法 的 实现 既 可 以 看 做 是 实用 的 代码 ， 也 可 以 看 做 是 之 前 讨论 的 递 推 猜想 


的 证 明 。 


3.2.1.3 插入 

算法 3.3 ( 续 1) 中 的 查找 代码 几乎 和 二 分 查找 的 一 样 
简单 ， 这 种 简洁 性 是 二 义 查 找 树 的 重要 特性 之 一 。 而 二 又 查 
找 树 的 另 一 个 更 重要 的 特性 就 是 插入 的 实现 难度 和 查找 差 不 
多 。 当 查 找 一 个 不 存在 于 树 中 的 结 点 并 结束 于 一 条 空 链接 时 ， 
我 们 需要 做 的 就 是 将 链接 指向 一 个 含有 被 查找 的 键 的 新 结 点 
( 详 见 图 3.2.5 ) 。 算 法 3.3( 续 1) 中 递归 的 putO 〇 方法 的 
实现 逻辑 和 递归 查找 很 相似 : 如 果树 是 空 的 ， 就 返回 一 个 含 
有 该 键 值 对 的 新 结 点 ; 如 果 被 查找 的 键 小 于 根 结 点 的 键 ， 我 
们 会 继续 在 左 子 树 中 插入 该 键 ， 否 则 在 右 子 树 中 插入 该 键 。 
3.2.1.4 ”递归 

这 些 递归 实现 值得 我 们 花 点 儿 时 间 去 理解 其 中 的 运行 
细节 。 可 以 将 递归 调用 前 的 代码 想象 成 沿 着 树 向 下 走 : 它 会 
将 给 定 的 键 和 每 个 结 点 的 键 相 比 较 并 根据 结果 向 左 或 者 向 
右 移动 到 下 一 个 结 点 。 然 后 可 以 将 递归 调用 后 的 代码 想象 成 
活着 树 向 上 疏 。 对 于 get() 方法 ， 这 对 应 着 一 系列 的 返回 
痢 令 〈 return ) ,但 是 对 于 put0) 方法 ， 这 意味 着 重 置 搜 
索 路 径 上 每 个 父 结 点 指向 子 结 点 的 链接 ， 并 增加 路 径 上 每 个 
结 点 中 的 计数 器 的 值 。 在 一 棵 简单 的 二 叉 查 找 树 中 ， 唯 一 的 
新 链接 就 是 在 最 底层 指向 新 结 点 的 链接 ， 重 置 更 上 层 的 链接 


插入 L 
查找 L 的 操作 终 -一 
止 于 这 条 链接 
400 


1 
创建 新 结 点 一 ~ @ 


治 搜索 路 径 向 上 一 ” 
更 新 链接 并 增加 
结 点 计数 器 的 值 


二 又 查找 树 的 插入 操作 


图 3.2.5 
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可 以 通过 比较 语句 来 避免 。 同 样 ， 我 们 只 需要 将 路 径 上 每 个 结 点 中 的 计数 器 的 值 加 1， 但 我 们 使 用 了 
更 加 通用 的 代码 ， 使 之 等 于 结 点 的 所 有 子 结 点 的 计数 器 之 和 加 1。 在 本 节 和 下 一 节 中 ， 我 们 会 学 习 一 
些 更 加 高 级 但 原理 相同 的 算法 ， 但 它们 在 搜索 路 径 上 需要 改变 的 链接 更 多 ， 也 需要 适应 性 更 强 的 代码 
来 更 新 结 点 计数 器 。 基 本 的 二 又 查找 树 的 实现 常常 是 非 递归 的 〈 请 见 练习 3.2.13 ) 我 们 在 实现 中 
使 用 了 递归 ， 一 来 是 为 了 便于 读者 理解 代码 的 工作 方式 ， 二 来 也 是 为 学 习 更 加 复杂 的 算法 做 准备 。 
图 3.2.6 是 对 我 们 的 标准 索引 用 例 轨迹 的 一 份 详细 的 研究 , 它 向 你 展示 了 二 又 树 是 如 何 生长 的 。 

新 结 点 会 连接 到 树 底层 的 空 链 接 上 , 树 的 其 他 部 分 则 不 会 改变 。 例 如 , 第 一 个 被 插入 的 键 就 是 根 结 点 ， 
第 二 个 被 搬入 的 键 是 根 结 点 的 两 个 子 结 点 之 一 ， 以 此 类 推 。 因 为 每 个 结 点 都 含有 两 个 链接 ， 树 会 逐 

渐 长 大 而 不 是 萎缩 ,不 仅 如 此 ,因为 只 有 查找 或 者 插入 路 径 上 的 结 点 才 会 被 访问 ,所 以 随 着 树 的 增长 ， 
401| 被 访问 的 结 点 数量 占 树 的 总 结 点 数 的 比例 也 会 不 断 的 降低 。 
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402 图 3.2.6 使 用 二 又 查找 树 的 标准 索引 用 例 的 轨迹 
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3.2.2 分 析 

使 用 二 又 查找 树 的 算法 的 运行 时 间 取 决 于 树 的 形状 ， 而 
树 的 形状 又 取决 于 键 被 搬入 的 先后 顺序 。 在 最 好 的 情况 下 ， 
一 棵 含有 NX 个 结 点 的 树 是 完全 平衡 的 ， 每 条 空 链 接 和 根 结 点 
的 距离 都 为 ~ lgN。 在 最 坏 的 情况 下 ,搜索 路 径 上 可 能 有 NN 
个 结 点 。 如 图 3.2.7 所 示 。 但 在 一 般 情 况 下 树 的 形状 和 最 好 情 
况 更 接近 。 

对 于 很 多 应 用 来 说 , 图 3.2.8 所 示 的 简单 模型 都 是 适用 的 : 
我 们 假设 键 的 分 布 是 (均匀 ) 随机 的 ， 或 者 说 它们 的 搬入 顺 
序 是 随机 的 。 对 这 个 模型 的 分 析 而 言 ， 二 又 查找 树 和 快速 排 
序 几 乎 就 是 “双胞胎 ”。 树 的 根 结 点 就 是 快速 排序 中 的 第 一 
个 切 分 元 素 〈 左 侧 的 键 都 比 它 小 ， 右 侧 的 键 都 比 它 大 ) ， 而 
这 对 于 所 有 的 子 树 同 样 适用 ， 这 和 快速 排序 中 对 子 数组 的 递 
归 排 序 完 全 对 应 。 这 使 我 们 能 够 分 析 得 到 二 又 查找 树 的 一 些 
性 质 。 图 3.2.7 二 又 查找 树 的 可 能 形状 


命题 C。 在 由 入 个 随机 键 构造 的 二 又 查找 树 中 ， 查 找 命 中 平均 所 需 的 比较 次 数 为 ~2InN ( 约 
1.39lgV ) 。 


证 明 。 一 次 结束 于 给 定 结 点 的 命中 查找 所 需 的 比较 次 数 为 查找 路 径 的 深度 加 1。 如 果 将 树 中 的 所 

有 结 点 的 深度 加 起 来 ， 我 们 就 能 够 得 到 一 棵 树 的 内 部 路 径 长 度 。 因 此 ， 在 三 又 查找 树 中 的 平均 比 

较 次 数 即 为 平均 内 部 路 径 长 度 加 1。 我 们 可 以 使 用 2.3 节 的 命题 KK 的 证 明 得 到 它 : 令 Gy 为 由 NN 

个 随机 排序 的 不 同 键 构造 得 到 的 二 又 查找 树 的 内 部 路 径 长 度 , 则 查找 命中 的 平均 成 本 为 ( ITHCw/V )。 

我 们 有 Co=Ci=0， 且 对 于 N>1 我 们 可 以 根据 二 又 查找 树 的 递归 结构 直接 得 到 一 个 归纳 关系 式 : 
CN-1+(Cot Cw IJ/NHCITHCwJ/NH HT(CwiHCOMN 


其 中 N-1 这 一 项 表示 根 结 点 使 得 树 中 的 所 有 N-1 个 非 根 结 点 的 路 径 上 都 加 了 1。 表 达 式 的 
其 他 项 代表 了 所 有 子 树 ， 它 们 的 计算 方法 和 大 小 为 W 的 三 又 查找 树 的 方法 相同 。 整 理 表 达 式 后 
我 们 会 发 现 ， 这 个 归纳 公式 和 我 们 在 2.3 节 中 为 快速 排序 得 到 的 公式 几乎 完全 相同 ， 因 此 我 们 
同样 可 以 得 到 Cy~2NInN。 


命题 D。 在 由 X 个 随机 键 构造 的 三 又 查找 树 中 插入 操作 和 查找 未 命中 平均 所 需 的 比较 次 数 为 
~2InN ( 约 1.39lgN)。 


证 明 。 揪 入 操作 和 查找 未 命中 平均 比 查找 命中 需要 一 次 额外 的 比较 。 这 一 点 由 归纳 法 不 难得 到 403 
(0 


命题 C 说 明 在 二 又 查找 树 中 查找 随机 键 的 成 本 比 二 分 查找 高 约 39%。 命题 D 说 明 这 些 人 额外 的 
成 本 是 值得 的 ， 因 为 插入 一 个 新 键 的 成 本 是 对 数 级 别 的 一 一 这 是 基于 二 分 查找 的 有 序数 组 所 不 具备 
的 灵活 性 ， 因 为 它 的 搬入 操作 所 需 访 问 数组 的 次 数 是 线性 级 别 的 。 和 快速 排序 一 样 ， 比 较 次 数 的 标 
准 差 很 小 ， 因 此 V 越 大 这 个 公式 越 准 确 。 
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实验 


我 们 的 随机 键 模型 和 典型 的 符号 表 使 用 情况 是 否 相 符 ? 按照 惯例 ， 这 个 问题 的 答案 需要 具体 问 
题 具 体 分 析 ， 因 为 在 不 同 的 应 用 场景 中 性 能 的 差别 可 能 很 大 。 幸 好 ， 对 于 大 多 数 用 例 ， 这 个 模型 都 
能 很 好 地 适应 。 
作为 例子 ,我 们 研究 用 FrequencyCounter 处 理 长 度 大 于 等 于 8 的 单词 时 put (0) 操作 的 成 本 。 
从 图 3.2.9 可 以 看 到 ， 每 次 操作 的 平均 成 本 从 BinarySearchST 的 484 次 数组 访问 降低 到 了 二 又 查 
找 树 的 13 次 ， 这 也 再 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 性 能 。 根 据 命 题 C 和 命题 D， 这 个 数 
值 的 合理 大 小 应 该 是 符号 表 大 小 的 自然 对 数 的 两 倍 左右 ， 因 为 对 于 一 个 几乎 充满 的 符号 表 ， 大 多 数 
操作 都 是 查找 。 这 个 预测 至 少 有 以 下 不 准确 性 : 
口 很 多 操作 都 是 在 较 小 的 符号 表 中 进行 的 ; 
口 键 不 随机 ; 
口 符号 表 可 能 太 小 ,近似值 2InWN 不 准确 。 

无 论 如 何 , 通过 表 3.2.1 你 都 能 看 到 , 对 于 FrequencyCounter 这 个 预测 的 误差 只 有 若干 次 比较 。 
404| 事实 上 ， 大 多 数 误 差 都 能 通过 对 近似 值 的 数学 表达 式 的 改进 得 到 解释 ( 请 见 练习 3.2.35 ) 。 


图 3.2.8 一 棵 典型 的 二 又 查找 树 ， 由 256 个 随机 键 组 成 


相 比 之 前 的 图 像 
20 -比例尺 放 大 250 们 
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图 3.2.9 使 用 二 又 查找 树 ， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
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表 3.2.1 使 用 二 又 查找 树 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 


tale.txt leipzig1M .txt 
比较 次 数 比较 次 数 
单词 数 | 不 同 单词 数 六 一 -一 一 单词 数 “| 不 同 单词 数 六 一 -一 a 
模型 预测 | 实际 次 数 模型 预测 | 实际 次 数 

所 有 单词 135 635 | 10 679 18.6 17.5 21 191 455 | 534 580 23.4 22.1 
和 8 的 14350 | 5737 17.6 13.9 4 239 597 299 593 22.7 21.4 
长 度 大 于 等 于 10 
的 单词 4 582 2 260 15.4 13.1 1 610 829 165 555 20.5 19.3 A 


3.2.3 ”有 序 性 相关 的 方法 与 删除 操作 
二 义 查 找 树 得 以 广泛 应 用 的 一 个 重要 原因 就 是 它 能 够 保持 键 的 有 序 性 ， 因 此 它 可 以 作为 实现 有 
序 符号 表 API ( 请 见 3.1.2 节 ) 中 的 众多 方法 的 基础 。 这 使 得 符号 表 的 用 例 不 仅 能 够 通过 键 还 能 通 
过 键 的 相对 顺序 来 访问 键 值 对 。 下 面 ， 我 们 要 研究 有 序 符号 表 API 中 各 个 方法 的 实现 。 
3.2.3.1 最 大 键 和 最 小 键 
如 果 根 结 点 的 左 链接 为 空 ， 那 么 一 棵 二 又 查找 在 找 floor (CG) 
树 中 最 小 的 键 就 是 根 结 点 ; 如 果 左 链接 非 空 ， 那 么 
树 中 的 最 小 键 就 是 左 子 树 中 的 最 小 键 。 这 不 仅 描 述 
了 算法 3.3( 续 2) 中 minO 方法 的 递归 实现 ， 同 时 


， 因 此 
也 递 推 地 证 明了 它 能 够 在 二 又 查找 树 中 找到 最 小 的 floor(G) 肯 
定 在 左 子 树 中 


键 。 简 单 的 循环 也 能 等 价 实现 这 上段 描述 ， 但 为 了 保 
持 一 致 性 我 们 使 用 了 递归 。 我 们 可 以 让 递归 调用 返 


回 键 Key 而 非 结 点 对 象 Node， 但 我 们 后 面 还 会 用 到 
这 方法 来 找 出 含有 最 小 键 的 结 点 。 找 出 最 大 键 的 方 
法 也 是 类 似 的 ， 只 是 变 为 查找 右 子 树 而 已 。 G 大 于 E, 饮 此 
3.2.3.2 ”向 上 取 整 和 向 下 取 整 oor Ceel 

如 果 给 定 的 键 key 小 于 二 又 查找 树 的 根 结 点 的 人 
键 ， 那 么 小 于 等 于 key 的 最 大 键 floor(key) 一 定 
在 根 结 点 的 左 子 树 中 ;如 果 给 定 的 键 key 大 于 二 又 0 
查找 树 的 根 结 点 ， 那 么 只 有 当 根 结 点 右 子 树 中 存在 
小 于 等 于 key 的 结 点 时 ， 小 于 等 于 key 的 最 大 键 才 能 找到 floor(G) 
会 出 现在 右 子 树 中 ， 否 则 根 结 点 就 是 小 于 等 于 key 
的 最 大 键 。 这 段 描述 说 明了 f1oor0 方法 的 递归 实 © 
现 , 同时 也 递 推 地 证 明了 它 能 够 计算 出 预期 的 结果 。 最 终结 果 


将 “ 左 ” 变 为 “ 右 ” ( 同时 将 小 于 变 为 大 于 ) 就 能 
够 得 到 ceiling0Q 的 算法 。 向 下 取 整 函数 的 计算 如 
图 3.2.10 所 示 。 
3.2.3.3 ”选择 操作 

二 又 查找 树 中 的 选择 操作 和 2.5 节 中 我 们 学 习 过 的 基于 切 分 的 数组 选择 操作 类 似 。 我 们 在 二 又 


到 3.2.10 计算 floor() 函数 


查找 树 的 每 个 结 点 中 维护 的 子 树 结 点 计数 器 变量 N 就 是 用 来 支持 此 操作 的 。 406 
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算法 3.3( 续 2) 
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二 义 查找 树 中 max()、min()、floor()、ceiling() 方法 的 实现 


中 描述 的 递归 方法 查找 返 
min() 和 floor0) 方法 基本 相同 ， 


public Key minO 

{ 
return min(root).key; 

} 

private Node min(Node x) 

{ 
if (x.left == nul1) return x; 
return min(Cx.left); 


} 

public Key floor(Key key) 

{ 
Node x = floor(root, key); 
if (x == null) return null; 
return x.key; 

} 


private Node floor(Node x, Key ke 
{ 
if (x == null1) return null; 
int cmp = key.compareTo(x.key) 
if (cmp == 0) return x; 


y) 


if (cmp < 0) return floor(x.left, key); 


Node t = floor(x.right, key); 
if (Ct != null) return 七 ; 
else return x; 


} 


每 个 公有 方法 都 对 应 着 一 个 私有 方法 ， 它 接受 一 个 额外 的 链接 作为 参数 指向 某 个 结 点 ， 通 过 正文 
回 nul1 或 者 含有 指定 Key 的 结 点 Node。max() 和 ceilingQ 的 实现 分 别 与 
只 是 将 代码 中 的 left 和 right (以 及 > 和 二 ) 调换 而 已 。 


妇 


假设 我 们 想 找到 排名 为 的 键 ( 即 树 


二 


P 正 好 有 大 个 小 于 它 的 键 )。 如 一 


R 左 子 树 中 的 结 点 数 ! 大 于 对 ， 


那么 我 们 就 继续 ( 递归 地 ) 在 左 子 树 中 查找 排名 为 上 的 键 ; 如 果 等 于 大 我 们 就 返回 根 结 点 中 的 键 ; 


居 ft 小 于 kk， 我 们 就 (递归 地 ) 在 右 子 树 中 查找 排名 为 〈 左 大 1) 的 键 。 和 刚才 一 样 ， 这 段 描述 既 
说 明了 select0Q 方法 的 递归 实现 同时 也 证 明了 它 的 正确 性 ， 此 过 程 如 图 3.2.11 所 示 。 

3.2.3.4 排名 
rank() 是 select() 的 逆 方 法 ， 它 会 返回 给 定 键 的 排名 。 它 的 实现 和 select() 类 似 : 如 果 给 
定 的 键 和 根 结 点 的 键 相 等 ， 我 们 返回 左 子 树 中 的 结 点 总 数 与 如 果 给 定 
回 该 键 在 左 子 树 中 的 排名 〈 递归 计算 ) ; 如 果 给 定 的 键 大 于 根 结 点 ， 我 们 会 返回 tt1 ( 根 结 点 ) 加 
上 它 在 右 子 树 中 的 排名 〈 递归 计算 ) 。 
二 又 查找 树 中 选择 和 排名 操作 的 实现 如 算法 3.3( 续 3 ) 所 示 。 


算法 3.3 ( 续 3) 二 叉 查 找 树 中 select 


public Key select(int k) 
{ 


return select(root, k).key; 


} 


GO 和 rank 0) 方法 的 实现 


private Node select(Node x, int k) 


的 键 小 于 根 结 点 ， 我 们 会 返 
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{  // 返回 排名 为 Kk 的 结 点 


if (x == nul1) return null; 

int 七 = size(x.left); 

陡 丰 (t > k) return select(x.left, k); 
else if (t < k) return select(x.right, k-t-1); 
else return x; 


} 

public int rank(Key key) 

{ return rank(key, root); } 

private int rank(Key key, Node x) 

{ // 返回 以 X 为 根 结 点 的 子 树 中 小 于 X .Kkey 的 键 的 数量 
if (x == nul1) return 0; 
int cmp = key.compareTo(x.kKkey); 


1 (cmp < 0) return rank(key, x.left); 
else if (cmp > 0) return 1 + size(x.left) + rank(key, x.right); 
else return size(x.left); 


} 
这 段 代码 使 用 了 和 我 们 已 经 在 本 童 中 学 习 过 的 其 他 实现 中 一 样 的 递归 模式 实现 了 select() 和 
rankQ 〇 方法 。 它 依赖 于 本 节 开 始 处 给 出 的 size() 方法 来 统计 每 个 结 点 以 下 的 子 结 点 总 数 。 


3.2.3.5 ”删除 最 大 键 和 删除 最 小 键 计算 select(3)， 
二 又 查找 树 中 最 难 实现 的 方法 就 是 delete() oe 


方法 ， 即 从 符号 表 中 删除 一 个 键 值 对 。 作 为 热身 运 2 一 
动 ， 我 们 先 考 虑 deleteMin0 方法 ( 删除 最 小 键 SN 
所 对 应 的 键 值 对 ) ， 如 图 3.2.12 所 示 。 和 put O) 一 ee 
样 ， 我 们 的 递归 方法 接受 一 个 指向 结 点 的 链接 ， 并 点 ， 因 此 继续 在 左 子 
返回 一 个 指向 结 点 的 链接 。 这 样 我 们 就 能 够 方便 地 树 中 查找 排名 为 3 的 键 
改变 树 的 结构 ,将 返回 的 链接 赋 给 作为 参数 的 链接 。 
对 于 deleteMin()， 我 们 要 不 断 深入 根 结 点 的 左 子 
树 中 直至 遇见 一 个 空 链接 ， 然 后 将 指向 该 结 点 的 链 
接 指向 该 结 点 的 右 子 树 ( 只 需要 在 递归 调用 中 返回 。。 大 了 出 中 共 丰 2 个 其 岂 
它 的 右 链 接 即 可 ) 。 此 时 已 经 没有 任何 链接 指向 要 因此 继续 在 右 子 树 中 查 
被 删除 的 结 点 ， 因 此 它 会 被 垃圾 收集 器 清理 挤 。 我 。 。 找 排名 为 3-^ -10 的 键 
们 给 出 的 标准 递归 代码 在 删除 结 点 后 会 正确 地 设置 
它 的 父 结 点 的 链接 并 更 新 它 到 根 结 点 的 路 径 上 的 所 a 
有 结 点 的 计数 器 的 值 。deleteMax() 方法 的 实现 和 此 继续 在 左 子 树 中 搜 
deleteMin() 完全 类 似 。 i ibe 
3.2.3.6 ”删除 操作 

我 们 可 以 用 类 似 的 方式 删除 任意 只 有 一 个 子 结 


点 (或 者 没有 子 结 点 ) 的 结 点 ， 但 应 该 怎样 删除 一 7 并 
个 拥有 两 个 子 结 点 的 结 点 呢 ? 删除 之 后 我 们 要 处 理 。 ,六 有 0 个 结 和 
两 棵 子 树 ， 但 被 删除 结 点 的 父 结 点 只 有 一 条 空 出 来 且 正 在 查 我 排名 为 0 的 
的 链接 。T Hibbard 在 1962 年 提出 了 解决 这 个 难题 。 键 ， 因 此 返回 " 


的 第 一 个 方法 ， 在 删除 结 点 x 后 用 它 的 后 继 结 点 填 。 ”图 3.2.11 一 又 查找 树 中 的 select 0 操作 
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408 
2 
410 


补 它 的 位 置 。 因 为 x 有 一 个 右 子 结 点 ， 因 此 它 的 后 继 结 点 就 是 其 右 子 树 中 的 最 小 结 点 。 这 样 的 替换 


仍然 能 够 保证 树 的 有 序 性 ， 因 为 x.key 和 它 的 后 继 结 点 的 键 之 间 不 存在 其 他 的 键 。 我 们 能 够 用 4 个 


简单 的 步骤 完成 将 x 替换 为 它 的 后 继 结 点 的 任务 ( 
口 将 指向 即将 被 删除 的 结 点 的 链接 保存 为 七 ; 
口 将 x 指向 它 的 后 继 结 点 min(t.right); 


具体 过 程 如 图 3.2.13 所 示 ) : 


口 将 x 的 右 链接 ( 原本 指向 一 棵 所 有 结 点 都 大 于 x.key 的 二 又 查找 树 ) 指向 deleteMin(t. 
right) ， 也 就 是 在 删除 后 所 有 结 点 仍然 都 大 于 x.key 的 子 二 又 查找 树 ; 
口 将 x 的 左 链接 ( 本 为 空 ) 设 为 t.1eft (其 下 所 有 的 键 都 小 于 被 删除 的 结 点 和 它 的 后 继 
结 点 ) 。 
删除 键 E 
将 会 被 删除 的 结 点 
SN 
查找 键 E 
不 断 检索 左 子 
树 直 至 遇见 空 
的 左 链接 、 
\ x 
AN 
2 
minCt.righty) 
返回 该 结 先 取 右 子 树 ， 然 
点 的 右 链接 后 再 不 断 检查 左 
SS。 子 树 ， 直 至 遇 到 
空 的 左 链接 
X 
| 及 vb X del en right) 
垃圾 回收 
递归 调用 后 更 新 
链接 和 结 点 计数 器 


a 


在 递归 调用 后 
更 新 链接 和 结 
点 计数 器 
图 3.2.12 ”删除 二 又 查 找 树 中 的 最 小 结 点 到 3.2.13 ”二 又 查找 树 中 的 删除 操作 
在 递归 调用 后 我 们 会 修正 被 删除 的 结 点 的 父 结 点 的 链接 ， 并 将 由 此 结 点 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 减 1 ( 这 里 计数 器 的 值 仍然 会 被 设 为 其 所 有 子 树 中 的 结 点 总 数 加 一 ) 。 尽 管 这 种 方 
法 能 够 正确 地 删除 一 个 结 点 ， 它 的 


个 缺陷 是 可 能 会 在 某 些 实际 应 用 中 产生 性 能 问题 。 
于 选用 后 继 结 点 是 一 个 随意 的 决定 ， 且 没有 考虑 树 的 对 称 怕 


前 趋 结 点 和 后 继 结 点 的 选择 应 该 是 随机 的 。 详 细 讨论 请 见 练习 3.2.42。 


二 又 查 找 树 中 删除 操作 的 实现 如 算法 3.3〈 续 4 ) 所 示 。 


这 个 问题 在 
E。 可 以 使 用 它 的 前 趋 结 点 吗 ? 实际 上 ， 
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算法 3.3 〈 续 4) 二 又 查找 树 的 delete() 方法 的 实现 


public void deleteMin() 
{ 
root = deleteMin(root); 


} 


private Node deleteMin(Node x) 

{ 
if (x.left == null1) return x.right; 
x.left = deleteMin(x.left); 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


public void delete(Key key) 
{ root = delete(root, key); } 


private Node delete(Node x, Key key) 
{ 
if (x == null) return null; 
int cmp = key.compareTo(x.key); 
了 下 (cmp < 0) x.left = delete(x.left, key); 
else if (cmp > 0) x.right = delete(x.right, key); 
else 
{ 
if (x.right == null) return x.left; 
if (x.left == null) return x.right; 
Node 七 = x; 
x = min(t.right); // 请 见 算法 3.3 ( 续 2 ) 
x.right = deleteMin(t.right); 
x.left = t.left; 
} 
x.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


如 前 文 所 述 ， 这 段 代码 实现 了 Hibbard 的 二 又 查找 树 中 对 结 点 的 即时 删除 。deleteQ 〇 方法 的 代码 
很 简洁 ， 但 不 简单 。 也 许 理解 它 的 最 好 办 法 就 是 读 懂 正文 中 的 讲解 ， 试 着 自己 实现 它 并 对 比 自己 的 代码 
和 这 段 代码 。 一 般 情况 下 这 段 代码 的 效率 不 错 ， 但 对 于 大 规模 的 应 用 来 说 可 能 会 有 一 点 问题 (请 见 练习 
3.2.42 ) 。deleteMax() 的 实现 和 deleteMin() 类 似 ， 只 需 左右 互 换 即 可 。 411 


3.2.3.7 ”范围 查找 

要 实现 能 够 返回 给 定 范围 内 键 的 keys © 方法 , 我 们 首先 需要 一 个 遍历 二 又 查找 树 的 基本 方法 ， 
叫做 中 序 遍 历 。 要 说 明 这 个 方法 ,我 们 先 看 看 如 何 能 够 将 二 又 查找 树 中 的 所 有 键 按照 顺序 打印 出 来 。 
要 做 到 这 一 点 ， 我 们 应 该 先 打印 出 根 结 点 的 左 子 树 中 的 本 
所 有 键 (根据 二 叉 查 找 树 的 定义 它们 应 该 都 小 于 根 结 点 。 和 ve Pm neooce 9 


的 键 ) ， 然 后 打印 出 根 结 点 的 键 ， 最 后 打印 出 根 结 点 的 if Cr nl) rerurn 
右 子 树 中 的 所 有 键 (根据 二 又 查找 树 的 定义 它们 应 该 都 人 
大 于 根 结 点 的 键 》， 如 右 侧 的 代码 所 示 。 printCx. right) ; 


和 以 前 一 样 ， 刚 才 的 描述 也 递 推 地 证 明了 这 段 
代码 能 够 顺序 打印 树 中 的 所 有 键 。 为 了 实现 接受 两 按 顺 序 打印 二 又 查找 树 中 的 所 有 键 
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个 参数 并 能 够 将 给 定 范 围 内 的 键 返回 给 用 例 的 keys 0) 方法 ， 我 们 可 以 修改 一 下 这 段 代 码 ， 将 
所 有 落 在 给 定 范围 以 内 的 键 加 入 一 个 队列 Queue 并 跳 过 那些 不 可 能 含有 所 查找 键 的 子 树 。 和 
BinarySearchST 一 样 ， 用 例 不 需要 知道 我 们 使 用 Queue 来 收集 符合 条 件 的 键 。 我 们 使 用 什么 数 
据 结 构 来 实现 Iterable<Key> 并 不 重要 ， 用 例 只 要 能 够 使 用 Java 的 foreach 语句 遍历 返回 的 所 
有 键 就 可 以 了 。 

二 叉 查 找 树 的 范围 查找 操作 的 实现 如 算法 3.3( 续 5) 所 示 。 


算法 3.3 ( 续 5) ”二 又 查 找 树 的 范围 查找 操作 


public Iterable<Key> keys() 
{ return keys(min(), maxO); +} 


public Iterable<Key> keys(Key 1lo, Key hi) 
{ 
Queue<Key> queue = new Queue<Key>() ; 
keys(root, queue, 10, hi); 
return queue; 


} 


private void keys(Node x, Queue<Key> queue, Key 1o, Key hi) 
{ 

if (x == null) return; 

int cmplo = lo.compareTo(x.key); 

int cmphi = hi.compareTo(x.key); 

if (cmplo < 0) keys(x.left, queue, 10, hi); 

if (cmplo <= 0 && cmphi >= 0) queue.enqueue(x.key); 

if (cmphi > 0) keys(x.right, queue, 10, hi); 
} 


为 了 确保 以 给 定 结 点 为 根 的 子 树 中 所 有 在 指定 范围 之 内 的 键 加 入 队列 ， 我 们 会 ( 递归 地 ) 查找 根 结 
点 的 左 子 树 ， 然 后 查找 根 结 点 ， 然 后 〈 递归 地 ) 查找 根 结 点 的 右 子 树 。 


在 [F. .Tj 之 间 进行 查找 


会 比较 黑色 加 粗 的 键 但 它 
们 并 不 在 查找 范围 之 内 


黑色 的 是 落 在 查 
找 范围 之 内 的 键 


二 叉 查 找 树 的 范围 查找 


3.2.3.8 性 能 分 析 

二 又 查找 树 中 和 有 序 性 相关 的 操作 的 效率 如 何 ? 要 研究 这 个 问题 ,我 们 首先 要 知道 树 的 高 度 ( 即 
树 中 任意 结 点 的 最 大 深度 ) 。 给 定 一 棵 树 ， 树 的 高 度 决定 了 所 有 操作 在 最 坏 情 况 下 的 性 能 〈 范围 查 
找 除外 ， 因 为 它 的 额外 成 本 和 返回 的 键 的 数量 成 正比 ) 。 
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命题 E。 在 一 棵 二 又 查找 树 中 ， 所 有 操作 在 最 坏 情况 下 所 需 的 时 间 都 和 树 的 高 度 成 正比 。 


证 明 。 树 的 所 有 操作 都 沿 着 树 的 一 条 或 两 条 路 径 行进 。 根 据 定义 ， 路 径 的 长 度 不 可 能 大 于 树 的 


高 度 。 


我 们 估计 树 的 高 度 〈 即 最 坏 情况 下 的 成 本 ) 将 会 大 于 我 们 在 3.2.2 节 中 定义 的 平均 内 部 路 径 
长 度 ( 这 个 平均 值 已 经 包含 了 所 有 较 短 的 路 径 ) ， 但 会 高 多 少 呢 7? 也 许 在 你 看 来 这 个 问题 和 命 
题 C 和 命题 D 解答 的 问题 类 似 ， 但 它 的 解答 其 实 要 困难 得 多 ， 完 全 超出 了 本 书 的 范畴 。1979 年 ， 
J. Robson 证 明了 随机 键 构造 的 二 又 查找 树 的 平均 高 度 为 树 中 结 点 数 的 对 数 级 别 ， 随 后 L. Devroye 证 


明了 对 于 足够 大 的 Y， 这 个 值 趋 近 于 2.991gN。 因 此 ， 如 果 我 们 的 应 用 中 的 插入 操作 能 够 适用 于 这 
个 随机 模型 ， 我 们 距离 实现 一 个 支持 对 数 级 别 的 所 有 操作 的 符号 表 的 目标 就 已 经 不 远 了 。 我 们 可 以 
认为 随机 构造 的 树 中 的 所 有 路 径 长 度 都 小 于 3lgN， 但 如 果 构 造 树 的 键 不 是 随机 的 怎么 办 ?在 下 一 节 


中 你 会 看 到 在 实际 应 用 中 这 个 问题 其 实 没 有 意义 ， 因 为 还 有 平衡 二 又 查找 树 ， 它 能 保证 无 论 键 的 插 


入 顺序 如 何 ， 树 的 高 度 都 将 是 总 键 数 的 对 数 。 
总 的 来 说 ， 二 叉 查 找 树 的 实现 并 不 困难 ， 且 当 树 的 构造 和 随机 模型 近似 时 在 各 种 实际 应 用 场景 


中 它 都 能 进行 快速 地 查找 和 搬入 。 对 于 我 们 的 例子 (以 及 其 他 许多 实际 应 用 场景 ) 来 说 ， 二 又 查找 


树 将 不 可 能 完成 的 任务 变 为 可 能 。 另 外 ， 许 多 程序 员 都 侦 爱 基于 二 又 查找 树 的 符号 表 的 原因 是 它 还 
支持 高 效 的 rank() 、select()、delete() 以 及 范围 查找 等 操作 。 但 同时 ， 正 如 我 们 所 强调 过 的 ， 


在 某 些 场景 中 二 又 查找 树 在 最 坏 情 况 下 的 恶劣 性 能 仍然 是 不 可 接受 的 。 二 又 查找 树 的 基本 实现 的 良 
好 性 能 依赖 于 其 中 的 键 的 分 布 足 够 随机 以 消除 长 路 径 。 对 于 快速 排序 ， 我 们 可 以 先 将 数组 打 乱 ; 而 
因为 符号 表 的 用 例 控 制 着 各 种 操作 的 先后 顺序 。 但 最 坏 情况 在 


对 于 符号 表 的 API， 我 们 无 能 为 力 ， 


实际 应 用 也 有 可 能 出 现 一 一 用 例 将 所 有 键 按照 顺序 或 者 逆序 插入 符号 表 就 会 增加 这 种 情况 出 现 的 概 
率 ， 而 在 没有 明确 的 警告 来 避免 这 种 行为 时 有 些 用 例 肯定 会 尝试 这 么 做 。 这 就 是 我 们 寻找 更 好 的 算 
法 和 数据 结构 的 主要 原因 ， 这 些 算法 和 数据 结构 我 们 会 在 下 一 节 学 习 。 

本 书 中 简单 的 符号 表 实 现 的 成 本 列 在 表 3.2.2 中 。 


表 3.2.2 简单 的 符号 表 实现 的 成 本 总 结 
最 坏 情况 下 的 运行 时 间 的 增长 数量 级 | 平均 情况 下 的 运行 时 间 的 增长 数量 级 | 
算法 (数据 结构 ) (N 次 插入 之 后 ) (N 次 插入 随机 键 之 后 ) ee 
查找 插 入 查找 命中 插 ”入 和 
拓 字 查询 (无 区 N 加 
7 查找 ( 有 序数 leN N lgV N/2 是 
二 又 树 查 找 (二 又 
奉 找 树 ) N N 1.391lgN 1.39lgN 是 


问 ” 我 见 过 二 又 查找 树 ， 但 它 的 实现 没有 使 用 递归 。 这 两 种 方式 各 有 了 哪些 优 缺 点 ? 
答 ”一般 来 说 ， 递 归 的 实现 更 容易 验证 其 正确 性 ， 而 非 递归 的 实现 效率 更 高 。 在 练习 3.2.13 中 你 需要 用 


另 一 种 方法 实现 get() ， 你 可 


全 CE 人 
能 会 


当 


EE 意 到 性 能 上 的 改进 。 如 果树 不 是 平衡 的 ， 函 数 调用 的 栈 的 深度 


412 
2 
413 


414 
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可 能 会 成 为 递归 实现 的 一 个 问题 。 我 们 使 用 递归 的 一 个 主要 原因 是 使 读者 能 够 轻松 过 渡 到 下 一 节 中 
的 平衡 二 又 查 找 树 ， 而 且 递归 版 本 显然 更 易于 实现 和 调试 。 
问 ”维护 Node 对 象 中 的 结 点 计数 器 似乎 需要 很 多 代码 ， 这 有 必要 吗 ? 为 什么 不 只 用 一 个 变量 来 保存 整 棵 


树 中 的 结 点 总 数 来 实现 用 例 中 的 sizeQ 〇 方法 ? 


蕉 


ra 


作 


nkQ 〇 和 select0Q 方法 需要 知道 每 个 结 点 所 代表 的 子 树 中 的 结 点 总 数 。 如 果 你 不 需要 实现 这 些 操 
， 可 以 去 掉 这 个 变量 以 简化 代码 ( 请 见 练 习 3.2.12 ) 。 要 保证 所 有 结 点 中 的 计数 器 的 正确 性 的 确 


很 容易 出 错 ， 但 这 个 值 在 调试 中 同样 有 用 。 你 也 可 以 用 递归 的 方法 实现 用 例 中 的 sizeQ 函数 ,但 这 


415 


样 统计 所 有 结 点 的 运行 时 间 可 能 是 线性 的 。 这 十 分 危险 ， 因 为 如 果 不 知 道 这 么 一 个 简单 的 操作 会 如 


此 耗 时 ， 用 例 的 性 能 可 能 会 变 得 很 差 。 
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图 练习 


S221 


3.2.2 


3.2.3 
3.2.4 


3.2.5 
3.2.6 


3.2.7 


3.2.8 


3.2.9 
3.2.10 


将 EASYQUESTION 作 为 键 按 顺序 插入 一 棵 初始 为 空 的 二 又 查找 树 中 (方便 起 见 设 第 
i 个 键 对 应 的 值 为 1 ) ， 夯 出 生成 的 二 又 查 找 树 。 构 造 这 棵 树 需 要 多 少 次 比较 ? 

将 A X C Ss E RH 作为 键 按 顺序 插入 将 会 构造 出 一 棵 最 坏 情况 下 的 二 又 查找 树 结 构 ， 最 下 方 的 结 
点 的 两 个 链接 全 部 为 空 ， 其 他 结 点 都 含有 一 个 空 链 接 。 用 这 些 键 给 出 构造 最 坏 情况 下 的 树 的 其 他 
5 种 排列 。 
给 出 AXCSERH 的 5 种 能 够 构造 出 最 优 二 又 查找 树 的 排列 。 

假设 某 棵 二 又 查找 树 的 所 有 键 均 为 1 至 10 的 整数 ， 而 我 们 要 查找 5。 那么 以 下 哪个 不 可 能 是 键 的 
仿 查 序列 ? 

a. 10, 9, 8, 7, 6, 5 

b. 4, 10, 8, 7, 5, 3 

c. 1, 10, 2, 9, 3, 8, 4, 7, 6, 5 

d. 2, 7,3, 8, 4,5 

e. 1, 2, 10, 4, 8, 5 

假设 已 知 某 棵 二 又 查找 树 中 的 每 个 结 点 的 查找 频率 ， 且 我 们 可 以 以 任意 顺序 用 它们 构造 一 棵 树 。 
我 们 是 应 该 按照 查找 频率 的 顺序 由 高 到 低 或 是 由 低 到 高 将 它们 插入 ， 还 是 用 其 他 某 种 顺序 ? 证 明 
你 的 结论 。 
为 二 又 查找 树 添加 一 个 方法 height() 来 计算 树 的 高 度 。 实 现 两 种 方案 : 一 种 使 用 递归 (用 时 为 
线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 sizeQ 在 每 个 结 点 中 添加 一 个 变量 (所 需 空间 
为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 

为 二 叉 查 找 树 添 加 一 个 方法 avgCompares() 来 计算 一 棵 给 定 的 树 中 的 一 次 随机 命中 查找 平均 所 需 
的 比较 次 数 ( 即 树 的 内 部 路 径 长 度 除 以 树 的 大 小 再 加 1) 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 
为 线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 sizeQ 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空 
间 为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 

编写 一 个 静态 方法 optCompares () ， 接 受 一 个 整 型 参数 N 并 计算 一 棵 最 优 ( 完美 平衡 的 ) 二 又 查 
找 树 中 的 一 次 随机 查找 命中 平均 所 需 的 比较 次 数 ， 如 果树 中 的 链接 数量 为 2 的 震 ， 那 么 所 有 的 空 
链接 都 应 该 在 同一 层 ， 否 则 则 分 布 在 最 底部 的 两 层 中 。 

对 于 N=2、3、4、5 和 6， 画 出 用 YX 个 键 可 能 构造 出 的 所 有 不 同形 状 的 二 义 查 找 树 。 
编写 一 个 测试 用 例 TestBSTjava 来 测试 正文 中 minO、maxQO，、floorQO)、ceilingQO、 
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select()、rank()、delete()、deleteMin()、deleteMax() 和 keys0 方法 的 实现 。 可 以 参 
考 3.1.3.1 节 的 标准 索引 用 例 ， 使 它 接 受 其 他 合适 的 命令 行 参数 。 

3.2.11 高 度 为 W 上 且 含 有 个 结 点 的 二 又 树 能 有 多 少 种 形状 ? 使 用 个 不 同 的 键 能 有 多 少 种 不 同 的 方式 
构造 一 棵 高 度 为 N 的 二 又 查 找 树 ? (参考 练习 3.2.2 ) 

3.2.12 ”实现 一 种 二 叉 查 找 树 ， 侈 弃 rank() 和 select0 方法 并 且 不 在 Node 对 象 中 使 用 计数 器 。 

3.2.13 ”为 二 又 查 找 树 实现 非 递 归 的 put QO 和 get 0) 方法 。 
部 分 解答 ， 以 下 是 get 0) 方法 的 实现 : 


public Value get(Key key) 
{ 


Node x = root; 
while (x != null) 
{ 
int cmp = key.compareTo(x.key); 
if (cmp == 0) return x.val; 
else if (cmp < 0) x = x.left; 
else if (cmp > 0) x = x.right; 
} 
return null; 
} 
putQ 的 实现 更 复杂 一 些 ， 因 为 它 需要 保存 一 个 指向 底层 结 点 的 链接 ， 以 便 使 之 成 为 新 结 点 的 
父 结 点 。 你 还 需要 额外 遍历 一 思 查 找 路 径 来 更 新 所 有 的 结 点 计数 器 以 保证 结 点 插入 的 正确 性 。 
因为 在 性 能 优先 的 实现 中 查找 的 次 数 比 插入 多 得 多 ， 有 必要 使 用 这 段 getQ 〇 代码 ， 而 相应 的 


putQ 实现 则 无 关 紧要 。 a 
3.2.14 ”实现 非 递 归 的 min()、max()、floor()、ceiling()、rank() 和 select() 方法 。 
3.2.15 ”对 于 右 下 方 的 二 又 查找 树 ， 给 出 计算 下 列 方法 的 过 程 中 结 点 的 访问 序列 。 
a. floor("Q") 
b. select(5) 
c. ceiling("Q") 
d. rank("J") 
e. size("D", "T") 
f. keys("D", "T") 
3.2.16 设 一 棵 树 的 外 部 路 径 长 度 为 从 根 结 点 到 空 链 接 的 所 有 路 径 上 的 结 点 总 数 。 证 明 对 于 大 小 为 入 的 
任意 二 又 树 ， 其 外 部 路 径 长 度 和 内 部 路 径 长 度 之 差 为 2N (可 以 参考 命题 C ) 
3.2.17 ”从 练习 3.2.1 构造 的 二 又 查找 树 中 将 所 有 键 按照 插入 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
3.2.18 ”从 练习 3.2.1 构造 的 二 义 查 找 树 中 将 所 有 键 按照 字母 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
3.2.19 ”从 练习 3.2.1 构造 的 二 又 查找 树 中 逐次 删除 树 的 根 结 点 并 画 出 每 次 删除 所 得 到 的 树 。 
3.2.20 ”请 证 明 : 对 于 含有 V 个 结 点 的 二 又 查找 树 ， 接 受 两 个 参数 的 size() 方法 所 需 的 运行 时 间 最 多 为 
树 高 的 倍数 加 上 查找 范围 内 的 键 的 数量 。 
3.2.21 为 二 又 查找 树 添 加 一 个 randomKey () 方法 来 在 和 树 高 成 正比 的 时 间 内 从 符号 表 中 随机 返回 一 
个 键 。 
3.2.22 ”请 证 明 : 若 一 棵 二 又 查找 树 中 的 一 个 结 点 有 两 个 子 结 点 ， 那 么 它 的 后 继 结 点 不 会 有 左 子 结 点 ， 
前 趋 结 点 不 会 有 右 子 结 点 。 
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3.2.23 delete0) 方法 符合 交换 律 吗 ?〈 先 删除 x 后 删除 y 和 先 删 除 y 后 删除 x 能 够 得 到 相同 的 结果 吗 ” ) 


418 


3.2.24 请 证 明 : 使 用 基于 比较 的 算法 构造 一 棵 二 又 查找 树 所 需 的 最 小 比较 次 数 为 lg(ND)~NlgN。 


图 提高 是 


3.2.25 ”完美 平衡 。 编 写 一 段 程序 ， 用 一 组 键 构造 一 棵 和 二 分 查找 等 价 的 二 又 查找 树 。 也 就 是 说 ， 在 这 
棵 树 中 查找 任意 键 所 产生 的 比较 序列 和 在 这 组 键 中 使 用 二 分 查找 所 产生 的 比较 序列 完全 相同 。 

3.2.26 ”准确 的 概率 。 计 算 用 N 个 随机 的 互 不 相同 的 键 构造 出 练习 3.2.9 中 的 每 一 棵 树 的 概率 。 

3.2.27 内 存 使 用 。 基 于 1.4 节 的 假设 ， 对 于 NM 对 键 值 比较 二 又 查找 树 和 BinarySearchST 以 及 
SequentialSearchST 的 内 存 使 用 情况 。 不 需要 记录 键 值 本 身 占用 的 内 存 ， 只 统计 它们 的 引用 。 

用 图 精确 描述 一 棵 以 String 为 键 、Integer 为 值 的 二 又 查找 树 〈 比如 FrequencyCounter 构造 

的 那 种 ) 的 内 存 使 用 情况 ， 然 后 估计 FrequencyCounter 在 使 用 二 又 查找 树 处理 《 双 城 记 》 时 

树 的 内 存 使 用 情况 〈 精确 到 字 节 ) 。 

3.2.28 缓存 。 修 改 二 叉 查 找 树 的 实现 ， 将 最 近 访问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get 0) 或 
putQ 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 (参考 练习 3.1.25 ) 。 

3.2.29 二 又 树 检查 。 编 写 一 个 递归 的 方法 isBinaryTree() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 
点 为 根 的 子 树 中 的 结 点 总 数 和 计数 器 的 值 Y 相符 则 返回 true， 否 则 返回 false。 注 意 : 这 项 检 
查 也 能 保证 数据 结构 中 不 存在 环 ， 因 此 这 的 确 是 一 棵 二 又 树 ! 

3.2.30 ”有 序 性 检查 ,编写 一 个 递归 的 方法 is0rdered() ,接受 一 个 结 点 Node 和 min .max 两 个 键 作为 参数 。 
如 果 以 该 结 点 为 根 的 子 树 中 的 所 有 结 点 都 在 min 和 max 之 间 ，min 和 max 的确 分 别 是 树 中 的 最 
小 和 最 大 的 结 点 且 二 叉 查 找 树 的 有 序 性 对 树 中 的 所 有 键 都 成 立 ， 返 回 true， 和 否则 返回 false。 

3.2.31 等 值 键 检查 。 编 写 一 个 方法 hasNoDup1icates() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 点 
为 根 的 二 又 查找 树 中 不 含有 等 值 的 键 则 返回 true， 否 则 返回 false。 假 设 树 已 经 通过 了 前 几 道 
练习 的 检查 。 

3.2.32 验证。 编写 一 个 方法 isBST() ， 接 受 一 个 结 点 Node 为 参数 。 若 该 结 点 是 一 个 二 叉 查 找 树 的 根 结 
点 则 返回 true， 和 否则 返回 false。 提 示 : 这 个 任务 比 看 起 来 要 困难 ， 它 和 你 调用 前 三 题 中 各 个 


屋 
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方法 的 顺序 有 关 。 


解答 : 
private boolean isBSTO) 


{ 
if (!isBinaryTree(root)) return false; 
if (!isOrdered(root, min(), max())) return false; 
if (!hasNoDuplicates(root)) return false; 
return true; 
} 
3.2.33 ”选择 /排名 检查 。 编 写 一 个 方法 ， 对 于 0 到 sizeQ 〇 -1 之 间 的 所 有 i， 检 查 1i 和 rank(select(1i)) 
是 否 相 等 ， 并 检查 二 又 查找 树 中 的 的 任意 键 key 和 select(rank(key)) 是 否 相 等 。 
3.2.34 ”线性 符号 表 。 你 的 目标 是 实现 一 个 扩展 的 符号 表 ThreadedST， 支 持 以 下 两 个 运行 时 间 为 常数 
的 操作 
Key next(Key key) ，key 的 下 一 个 键 ( 若 key 为 最 大 键 则 返 
Key prev(Key key) ，key 的 上 一 个 键 ( 若 key 为 最 小 键 则 返回 


空 ) 


) 
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要 做 到 这 一 点 需要 在 结 点 中 增加 pred 和 succ 两 个 变量 来 保存 结 点 的 前 趋 和 后 继 结 点 ， 并 相应 
修改 put()、deleteMin()、deleteMax() 和 delete() 方法 来 维护 这 两 个 变量 。 

3.2.35 改进 的 分 析 。 为 了 更 好 地 解释 正文 表格 中 的 试验 结果 请 改进 它 的 数学 模型 。 证 明 随 着 N 的 增 
大 ， 在 一 棵 随机 构造 的 二 又 查找 树 中 ， 一 次 命中 查找 所 需 的 平均 比较 次 数 会 趋 近 于 2InN+2 y 一 
3= 1.391gM-1.85， 其 中 y=0.57721…， 即 欧 拉 常数 。 提 示 : 参考 2.3 节 中 对 快速 排序 的 分 析 ，1/x 
的 积分 趋 近 于 InN+ y 。 

3.2.36 ”人 迁 代 器 。 能 和 否 实 现 一 个 非 递归 版 本 的 keys 0) 方法 ， 其 使 用 的 额外 空间 和 树 的 高 度 成 正比 ( 和 查 
找 范 围 内 的 键 的 多 少 无 关 ) ? 

3.2.37 ” 按 层 遍历 。 编 写 一 个 方法 printLeve1() ， 接 受 一 个 结 点 Node 作为 参数 ， 按 照 层 级 顺序 打印 以 
该 结 点 为 根 的 子 树 〈 即 按 每 个 结 点 到 根 结 点 的 距离 的 顺序 ， 同 一 层 的 结 点 应 该 按 从 左 至 右 的 顺 
序 ) 。 提 示 : 使 用 队列 Queue。 


3.2.38 绘图。 为 二 又 查找 树 添加 一 个 方法 draw() ， 按 照 正 文中 的 样式 将 树 绘制 出 来 。 提 示 : 在 结 点 中 |420 
j 变 量 保存 坐标 并 用 递归 的 方法 设置 这 些 变量 。 421 
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3.2.39 平均 情况 。 用 经 验 数据 评估 在 一 棵 由 YX 个 随机 结 点 构造 的 二 义 查 找 树 中 ， 一 次 命中 的 查找 和 未 命 

中 的 查找 平均 所 需 的 比较 次 数 的 平均 差 和 标准 差 ， 其 中 NE10 、10 和 10"， 重 复 实验 100 遍 。 将 你 

的 实验 结果 和 练习 3.2.35 给 出 的 计算 平均 比较 次 数 的 公式 进行 对 比 。 

3.2.40 树 的 高 度 。 用 经 验 数据 评估 一 棵 由 Y 个 随机 结 点 构造 的 二 又 查找 树 的 平均 高 度 ， 其 中 N=10“、 
10 和 10'， 重 复 实验 100 遍 。 将 你 的 试验 结果 和 正文 中 给 出 的 估计 值 2.991gN 进行 对 比 。 

3.2.41 数组 表示 。 开 发 一 个 二 又 查找 树 的 实现 ,用 三 个 数组 表示 一 棵 树 〈 预先 分 配 为 构造 函数 中 所 指 
定 的 最 大 长 度 ) : 一 个 数组 用 来 保存 键 ， 一 个 数组 用 来 保存 左 链接 的 索引 ， 一 个 数组 用 来 保存 
右 链接 的 索引 。 比 较 你 的 程序 和 标准 实现 的 性 能 。 

3.2.42 Hibbard 删除 方法 的 性 能 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 参数 NN 并 构造 一 棵 

 V 个 随机 键 生成 的 二 又 查找 树 ， 然 后 进入 一 个 循环 。 在 循环 中 它 先 删除 一 个 随机 键 

(delete(select(StdRandom.uniform(N))) ) ， 然 后 再 插入 一 个 随机 键 ， 如 此 循环 入 次 。 

循环 结束 后 ， 计 算 并 打印 树 的 内 部 平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 NN 再 加 1) 。 对 于 NN=10"、 
10 和 10”, 运行 你 的 程序 来 验证 一 个 有 些 违反 直觉 的 假设 这 个 过 程 会 增加 树 的 平均 路 径 长 度 ， 
增加 的 长 度 和 的 平方 根 成 正比 。 使 用 能 够 随机 选择 前 趋 或 后 继 结 点 的 delete() 方法 重复 这 
个 实验 。 

3.2.43 put(Q/get() 方法 的 比例 。 用 经 验 数据 评估 当 使 用 FrequencyCounter 来 统计 100 万 个 随机 整 
数 中 每 个 数 的 出 现 频 率 时 ， 二 义 查 找 树 中 put 0O) 方法 和 get 0) 方法 所 消耗 的 时 间 的 比例 。 

3.2.44 绘制 成 本 图 。 改 造 二 叉 查 找 树 的 实现 来 绘制 本 节 所 示 的 那 种 能 够 显示 计算 中 每 次 put (0) 操作 成 
本 的 图 。 

3.2.45 ”实际 耗 时 。 改 造 FrequencyCounter， 使 用 Stopwatch 和 StdDraw 绘 图， 其 中 x 轴 表示 get(0) 


和 putQ 调用 的 总 数 ,y 轴 为 总 运行 时 间 ， 每 次 调用 之 后 即 在 当前 运行 时 间 人 处 绘制 一 个 点 。 使 用 ”|422 


SequentialSearchST 和 你 的 程序 人 处理 《双城记 》， 再 用 BinarySearchST 处 理 一 遍 ， 最 后 用 二 
又 查找 树 处 理 一 遍 ， 然 后 讨论 运行 的 结果 。 注 意 : 曲线 中 突然 的 跳跃 可 能 是 缓存 导致 的 ， 这 已 
经 超出 了 这 个 问题 的 讨论 范围 (请 见 练习 3.1.39 ) 。 
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3.2.46 二 又 查找 树 的 临界 点 。 使 用 随机 double 值 作为 键 ， 分 别 找 出 使 得 二 又 查找 树 的 符号 表 比 二 分 查 
找 要 快 10、100 倍 和 1000 倍 的 YX 值 。 分 析 并 预测 的 大 小 并 通过 实验 验证 它 。 

3.2.47 ”平均 查找 耗 时 。 用 实验 研究 和 计算 在 一 棵 由 个 随机 结 点 构造 的 二 又 查找 树 中 到 达 任 意 结 点 的 
平均 路 径 长 度 (内 部 路 径 长 度 除 以 X 再 加 1 ) 的 平均 差 和 标准 差 ， 对 于 100 到 10 000 之 间 的 每 
个 入 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.2.14 相似 的 一 张 Tufte 图 ， 并 画 上 函数 1.39lgNM-1.85 
的 曲线 (请 见 练习 3.2.35 和 练习 3.2.39 ) 。 


和 NEN 
1.39 lgN —1.85 


平均 路 径 长 度 


La 


00 节点 数量 N 


423 图 3.2.14 一 棵 随机 构造 的 二 又 查找 树 中 由 根 到 达 任 意 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.3 平衡 查找 树 


我 们 在 前 面 几 节 中 学 习 过 的 算法 已 经 能 够 很 好 地 用 于 许多 应 用 程序 中 ， 但 它们 在 最 坏 情况 下 的 
性 能 还 是 很 糟糕 。 在 本 节 中 我 们 会 介绍 一 种 二 分 查找 树 并 能 保证 无 论 如 何 构造 它 ， 它 的 运行 时 间 都 
是 对 数 级 别 的 。 理 想 情况 下 我 们 希望 能 够 保持 二 分 查找 树 的 平衡 性 。 在 一 棵 含 及 个 结 点 的 树 中 ， 
我 们 希望 树 高 为 ~lgN, 这 样 我 们 就 能 保证 所 有 查找 都 能 在 ~lgN 次 比较 内 结束 , 就 和 二 分 查找 一 样 ( 请 
见 命题 B ) 。 不 笠 的 是 ， 在 动态 插入 中 保证 树 的 完美 平衡 的 代价 太 高 了 。 在 本 节 中 ， 我 们 稍稍 放松 
完美 平衡 的 要 求 并 将 学 习 一 种 能 够 保证 符号 表 API 中 所 有 操作 ( 范围 查找 除外 ) 均 能 够 在 对 数 时 间 
内 完成 的 数据 结构 。 


3.3.1 2-3 查找 树 

为 了 保证 查找 树 的 平衡 性 ， 我 们 需要 一 些 灵 活性 ， 因 此 在 这 里 我 们 允许 树 中 的 一 个 结 点 保存 多 
个 键 。 确 切 地 说 ， 我 们 将 一 棵 标准 的 二 又 查找 树 中 的 结 点 称 为 2- 结 点 (含有 一 个 刍 和 两 条 链接 ) ， 
而 现在 我 们 引入 3- 结 点 ， 它 含有 两 个 键 和 三 条 链接 。2- 结 点 和 3- 结 点 中 的 每 条 链接 都 对 应 着 其 中 
保存 的 键 所 分 割 产 生 的 一 个 区 间 。 


定义 。 一 棵 2-3 查找 树 或 为 一 棵 空 树 ， 或 由 以 下 结 点 组 成 : 

口 2- 结 点 ， 伪 有 一 个 键 (及 其 对 应 的 值 ) 和 两 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 于 

该 结 点 ， 右 链接 指向 的 2-3 树 中 的 键 都 大 于 该 结 点 。 

口 3- 结 点 ， 含 有 两 个 键 ( 及 其 对 应 的 值 ) 和 三 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 
于 该 结 点 ， 中 链接 指向 的 2-3 树 中 的 键 都 位 于 该 结 点 的 两 个 键 之 间 ， 右 链接 指向 的 2-3 
树 中 的 键 都 大 于 该 结 点 。 

和 以 前 一 样 ， 我 们 将 指向 一 棵 空 树 的 链接 称 为 空 链 接 。2-3 查找 树 如 图 3.3.1 所 示 。 


图 3.3.1 2-3 查找 树 示 意图 


一 棵 完美 平衡 的 2-3 查找 树 中 的 所 有 空 链 接 到 根 结 点 的 距离 都 应 该 是 相同 的 。 简 洁 起 见 ， 这 里 
我 们 用 2-3 树 指 代 一 棵 完美 平衡 的 2-3 查找 树 ( 在 其 他 情况 下 这 个 词 应 该 表示 一 种 更 一 般 的 结构 ) 。 


稍 后 我 们 将 会 学 习 定 义 并 高 效 地 实现 2- 结 点 、3- 结 点 和 2-3 树 的 基本 操作 。 现 在 先 假设 我 们 已 经 能 “四 4 
够 自如 地 操作 它们 并 来 看 看 应 该 如 何 将 它们 用 作 坦 找 树 。 
3.3.1.1 查找 


将 二 又 查找 树 的 查找 算法 一 般 化 我 们 就 能 够 直接 得 到 2-3 树 的 查找 算法 。 要 判断 一 个 键 是 否 在 
树 中 ， 我 们 先 将 它 和 根 结 点 中 的 键 比较 。 如 果 它 和 其 中 任意 一 个 相等 ， 查 找 命中 ; 否则 我 们 就 根据 
比较 的 结果 找到 指向 相应 区 间 的 链接 ， 并 在 其 指向 的 子 树 中 递归 地 继续 查找 。 如 果 这 是 个 空 链接 ， 
查找 坟 合 中。 具体 查找 过 程 如 图 3.3.2 所 示 。 
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对 H 的 命中 查找 对 B 的 未 命中 查找 
H 小 于 M， 在 左 子 树 中 继续 查找 B 小 于 M， 在 左 子 树 中 继续 查找 
NA ~ 


-| B 小 于 E， 在 左 
H 在 E 和 ] 之 间 ， 在 中 在 左 
子 村 中 继续 查 懂 子 树 中 继续 查找 
\ ES, 
和 (WD WD 
9 


| t 


找到 H， 返 回 相应 的 值 ( 命 中 B 在 A 和 C 之 间 ， 在 中 子 树 中 继续 查找 
链接 为 空 ，B 不 在 树 中 (未 命中 ) 


图 3.3.2 ”2-3 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 


3.3.1.2 ”向 2- 结 点 中 插入 新 键 插入 K 网 
要 在 2.3 树 中 插入 一 个 新 结 点 ， 我 们 可 以 和 二 又 查找 树 
一 样 先进 行 一 次 未 命中 的 查找, 然后 把 新 结 点 挂 在 树 的 底部 。 
但 这 样 的 话 树 无 法 保持 完美 平衡 性 。 我 们 使 用 2.3 树 的 主要 
原因 就 在 于 它 能 够 在 插入 后 继续 保持 平衡 。 如 果 未 命中 的 查 对 K 的 查找 在 此 处 结束 
找 结束 于 一 个 2- 结 点 ， 事 情 就 好 办 了 : 我 们 只 要 把 这 个 2- 
结 点 蔡 换 为 一 个 3- 结 点 ， 将 要 插入 的 键 保存 在 其 中 即 可 ( 如 


一 


图 3.3.3 所 示 ) 。 如 果 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 事 
425| ” 情 就 要 麻烦 一 些 。 将 流 2_ 结 点 替换 为 个 
3.3.1.3 ”向 一 棵 只 含有 一 个 3- 结 点 的 树 中 插入 新 键 新 的 含有 K 的 3- 结 点 


在 考虑 一 般 情况 之 前 ， 先 假设 我 们 需要 向 一 棵 只 含有 一 图 333 向 2- 结 点 中 插入 新 的 键 
个 3- 结 点 的 树 中 插入 一 个 新 键 。 这 棵 树 中 有 两 个 键 ， 所 以 
在 它 唯一 的 结 点 中 已 经 没有 可 插 人 新 键 的 空间 了 。 为 了 将 新 键 插入 ， 我 们 先 临时 将 新 键 存 人 该 结 
点 中 , 使 之 成 为 一 个 4- 结 点 。 它 很 自然 地 扩展 了 以 前 的 结 点 并 含有 3 个 键 和 4 条 链接 。 创建 一 个 4- 
结 点 很 方便 , 因为 很 容易 将 它 转 换 为 一 棵 由 3 个 2- 结 点 组 成 的 2-3 树 , 其 中 一 个 结 点 ( 根 ) 含 有 中 键 ， 
一 个 结 点 含有 3 个 键 中 的 最 小 者 ( 和 根 结 点 的 左 链接 相连 ) ， 一 个 结 点 含有 3 个 键 中 的 最 大 者 ( 和 
根 结 点 的 右 链接 相连 ) 。 这 棵 树 既 是 一 棵 含有 3 个 结 点 的 二 又 查找 树 , 同时 也 是 一 棵 完美 平衡 的 2-3 
树 ， 因 为 其 中 所 有 的 空 链 接 到 根 结 点 的 距离 都 相等 。 插 入 前 树 的 高 度 为 0， 插 人 后 树 的 高 度 为 1。 
这 个 例子 很 简单 但 却 值得 学 习 ， 它 说 明了 2-3 树 是 如 何 生 长 的 ， 如 图 3.3.4 所 示 。 
3.3.1.4 ”向 一 个 父 结 点 为 2- 结 点 的 3- 结 点 中 插入 新 键 

作为 第 二 轮 热身 ， 假 设 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 而 它 的 父 结 点 是 一 个 2- 结 点 。 在 这 
种 情况 下 我 们 需要 在 维持 树 的 完美 平衡 的 前 提 下 为 新 键 腾 出 空间 。 我 们 先 像 刚 才 一 样 构造 一 个 临时 
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的 4- 结 点 并 将 其 分 解 ， 但 此 时 我 们 不 会 为 中 键 创建 一 个 新 结 点 ， 而 是 将 其 移动 至 原来 的 父 结 点 中 。 
你 可 以 将 这 次 转换 看 成 将 指向 原 3- 结 点 的 一 条 链接 替换 为 新 父 结 点 中 的 原 中 键 左 右 两 边 的 两 条 链 
接 , 并 分 别 指向 两 个 新 的 2- 结 点 。 根据 我 们 的 假设 , 父 结 点 中 是 有 空间 的 : 父 结 点 是 一 个 2- 结 点 (一 
个 键 两 条 链接 ) , 插入 之 后 变 为 了 一 个 3- 结 点 ( 两 个 键 3 条 链接 ) 。 另 外 , 这 次 转换 也 并 不 影响 〈 完 
美 平衡 的 ) 2-3 树 的 主要 性 质 。 树 仍然 是 有 序 的 ， 因 为 中 键 被 移动 到 父 结 点 中 去 了 ; 树 仍 然 是 完美 
平衡 的 , 插入 后 所 有 的 空 链接 到 根 结 点 的 距离 仍然 相同 。 请 确认 你 完全 理解 了 这 次 转换 一 一 它 是 2-3 
树 的 动态 变化 的 核心 ， 其 过 程 如 图 3.3.5 所 示 。 


插入 Z 


对 Z 的 查找 结束 
了 于 这 个 3- 结 点 


将 3- 结 点 替换 为 
包含 Z 的 4- 结 点 


/ 
插入 S 


yh 守信 将 2- 结 点 替换 为 含 
一 创建 一 个 4- 结 点 a 
(E) 将 4- 结 点 分 解 (5) (2 
0 
(W 3) 将 4- 结 点 分 解 为 两 个 2- 结 点 
将 中 键 移动 至 父 结 点 中 
图 3.3.4 向 一 棵 只 含有 一 个 3- 结 点 的 图 3.3.5 ”向 一 个 父 结 点 为 2- 结 点 的 
树 中 插入 新 键 3- 结 点 中 插入 新 键 
3.3.1.5 ”向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 
现在 假设 未 命中 的 查找 结束 于 一 个 父 结 点 为 3- 结 点 的 结 点 。 我 们 再 次 和 刚才 一 样 构 造 一 个 
临时 的 4- 结 点 并 分 解 它 ， 然 后 将 它 的 中 键 插入 它 的 父 结 点 中 。 但 父 结 点 也 是 一 个 3- 结 点 ， 因 此 
我 们 再 用 这 个 中 键 构造 一 个 新 的 临时 4- 结 点 ， 然 后 在 这 个 结 点 上 进行 相同 的 变换 ， 即 分 解 这 个 
父 结 点 并 将 它 的 中 键 插入 到 它 的 父 结 点 中 去 。 推 广 到 一 般 情 况 ， 我 们 就 这 样 一 直 向 上 不 断 分 解 临 
时 的 4- 结 点 并 将 中 键 插 和 人 更 高 层 的 父 结 点 ， 直 至 遇 到 一 个 2- 结 点 并 将 它 替 换 为 一 个 不 需要 继续 
分 解 的 3- 结 点 ， 或 者 是 到 达 3- 结 点 的 根 。 该 过 程 如 图 3.3.6 所 示 。 
3.3.1.6 “分解 根 结 点 
如 果 从 插入 结 点 到 根 结 点 的 路 径 上 全 都 是 3- 结 点 , 我 们 的 根 结 点 最 终 变 成 一 个 临时 的 4- 结 点 。 


此 时 我 们 可 以 按照 向 一 棵 只 有 一 个 3- 结 点 的 树 中 插入 新 键 的 方法 处 理 这 个 问题 。 我 们 将 临时 的 4- 
结 点 分 解 为 3 个 2- 结 点 ， 使 得 树 高 加 1， 如 图 3.3.7 所 示 。 请 注意 ， 这 次 最 后 的 变换 仍然 保持 了 树 
的 完美 平衡 性 ， 因 为 它 变换 的 是 根 结 点 。 
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章 查 找 
插入 D 
对 D 的 查找 结束 


于 这 个 3- 结 点 N\ 


将 D 加 入 3- 结 点 中 
使 之 变 成 一 个 临时 
的 4- 结 点 


将 中 键 C 加 入 3- 结 点 使 
之 变 成 一 个 临时 的 4- 结 点 


GCE: 


将 4- 结 点 分 解 为 两 个 
将 中 键 移动 至 父 结 点 中 


将 中 键 E 加 入 2- 结 点 使 


> 恋 成 一 个 新 的 3- 结 点 
之 变 成 “oP 
(O 加 


插入 D 


对 D 的 查找 结束 
于 这 个 3- 结 点 \ 
(A C) 


将 D 加 入 3- 结 点 中 使 之 
变 成 一 个 临时 的 4- 结 点 


ACD 


将 中 键 C 加 入 3- 结 点 使 
之 变 成 一 个 临时 的 4- 结 点 


Ey 
个 
壕 
I 
3 
者 
典 六 
到 
> 
ey 
I 


将 4- 结 点 分 解 
为 三 个 2- 结 点 一 一 > 
7/ 树 高 加 1 
将 4- 结 点 分 解 为 两 个 2- 结 点 
将 中 键 移动 至 父 结 点 中 
图 3.3.6 ”向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 图 3.3.7 ”分解 根 结 点 
3.3.1.7 局 部 变换 
将 一 个 4- 结 点 分 解 为 一 棵 2-3 树 可 能 有 6 种 情况 ， 都 总 结 在 了 图 3.3.8 中 。 这 个 4- 结 点 可 能 是 
根 结 点 ， 可 能 是 一 个 2- 结 点 的 左 子 结 点 或 者 右 子 结 点 ， 也 可 能 是 一 个 3- 结 点 的 左 子 结 点 、 中 子 结 


点 或 者 右 子 结 点 。2-3 树 插 入 算法 的 根本 在 于 这 些 变 换 都 是 局 部 的 : 除了 相关 的 结 点 和 链接 之 外 不 
必修 改 或 者 检查 树 的 其 他 部 分 。 每 次 变换 中 ， 变 更 的 链接 数量 不 会 超过 一 个 很 小 的 常数 。 需 要 特别 
首 出 的 是 ， 不 光 是 在 树 的 底部 ， 树 中 的 任何 地 方 只 要 符合 相应 的 模式 ， 变 换 都 可 以 进行 。 每 个 变换 


都 会 将 4- 结 点 中 的 一 个 键 送 入 它 的 父 结 点 中 ， 并 习 


3.3.1.8 全 局 性 质 


这 些 局 部 变换 不 会 影响 树 的 全 局 有 序 性 和 平衡 性 : 


构 相 应 的 链接 而 不 必 涉 及 树 的 其 他 部 分 。 


任意 空 链接 到 根 结 点 的 路 径 长 度 都 是 相等 


的 。 作 为 参考 ， 图 3.3.9 所 示 的 是 当 一 个 4- 结 点 是 一 个 3- 结 点 的 中 子 结 点 时 的 完整 变换 情况 。 如 
果 在 变换 之 前 根 结 点 到 所 有 空 链接 的 路 径 长 度 为 hn， 那么 变换 之 后 该 长 度 仍然 为 h。 所 有 的 变换 都 
具有 这 个 性 质 ， 即 使 是 将 一 个 4- 结 点 分 解 为 两 个 2- 结 点 并 将 其 父 结 点 由 2- 结 点 变 为 3- 结 点 , 或 
是 由 3- 结 点 变 为 一 个 临时 的 4- 结 点 时 也 是 如 此 。 当 根 结 点 被 分 解 为 3 个 2- 结 点 时 ， 所 有 空 链接 
到 根 结 点 的 路 径 长 度 才 会 加 1。 如 果 你 还 没有 完全 理解 ， 请 完成 练习 3.3.7。 它 要 求 你 为 其 他 的 5 


种 情况 画 出 图 3.3.8 的 扩展 图 来 证 明 这 一 点 。 理 解 
性 是 理解 这 个 算法 的 关键 。 


所 有 局 部 变换 都 不 会 影响 整 棵 树 的 有 序 性 和 平衡 
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根 结 点 点 是 3- 结 点 时 


@ io 在 左 侧 插入 (de Kb d e) 
(ab co (a (a 


Ri 和 


在 中 间 插 入 
在 左 侧 插入 (bd (a e) 
abc (a) (© b c d (b) (0d 
右 侧 插入 ac 在 右 侧 插入 
@ (a c\ (a b) (a b d) 
b ea (b) (dd) (c d e) (c) \e, 
到 3.3.8 在 一 棵 2-3 树 中 分 解 一 个 4- 结 点 的 情况 汇总 
(a e) 
有 NFa\ /NFb\ /NFc\ /Fd 
小 Ta (jb 之 间 ) (和 c 之 间 ) (和 d 之 间 ) (和 e 之 间 )( 大 于 e 
Me Fa WN Me VY I roe MY MT 
(a c e) 
中) 9 
一 \ /nFa\ /NFb\ /NFc\ /NFd 
小 于 a 儿 (和 b 之 间 ) (和 c 之 间 ) (和 d 之 间 ) (和 e 之 间 )( 大 于 e 
TT TT TT TT TN TN 
图 3.3.9 4- 结 点 的 分 解 是 一 次 局 部 变换 ， 不 会 影响 树 的 有 序 性 和 平衡 性 428 


和 标准 的 二 叉 查 找 树 由 上 向 下 生长 不 同 ，2-3 树 的 生长 是 由 下 向 上 的 。 如 果 你 花 点 时 间 和 仔细 研 
究 一 下 图 3.3.10， 就 能 很 好 地 理解 2-3 树 的 构造 方式 。 它 给 出 了 我 们 的 标准 索引 测试 用 例 中 产生 的 
一 系列 2-3 树 ， 以 及 一 系列 由 同一 组 键 按照 升序 依次 插入 到 树 中 时 所 产生 的 所 有 2-3 树 。 还 记得 在 
二 又 查找 树 中 ， 按 照 升 序 插入 10 个 键 会 得 到 高 度 为 9 的 一 棵 最 差 查 找 树 吗 ?如 果 使 用 2-3 树 ， 树 
的 高 度 是 2。 

以 上 的 文字 已 经 足够 为 我 们 定义 一 个 使 用 2-3 树 作 为 数据 结构 的 符号 表 的 实现 了 。2-3 树 的 分 
析 和 二 又 查找 树 的 分 析 大 不 相同 ， 因 为 我 们 主要 感 兴 趣 的 是 最 坏 情 况 下 的 性 能 ， 而 非 一 般 情 况 ( 这 
种 情况 下 我 们 会 用 随机 键 模型 分 析 预 期 的 性 能 ) 。 在 符号 表 的 实现 中 ， 一般 我 们 无 法 控制 用 例会 按 
照 什 么 顺序 向 表 中 插入 键 ， 因 此 对 最 坏 情 况 的 分 析 是 唯一 能 够 提供 性 能 保证 的 办 法 。 


命题 F。 在 一 棵 大 小 为 NN 的 2-3 树 中 ,查找 和 插入 操作 访问 的 结 点 必然 不 超过 lgN 个 。 


证 明 。 一 襟 含有 N 个 结 点 的 2-3 树 的 高 度 在 |logs;N]=[(lgN)/(lg3)]( 如 果树 中 全 是 3- 结 点 ) 和 
LIgN| ( 如 果树 中 全 是 2- 结 点 ) 之 间 ( 请 见 练习 3.3.4) 。 
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3.3.10 2-3 树 的 构造 轨迹 


因此 我 们 可 以 确定 2-3 树 在 最 坏 情 况 下 仍 有 较 好 的 性 能 。 每 个 操作 中 处 理 每 个 结 点 的 时 间 都 不 会 
超过 一 个 很 小 的 常数 ， 且 这 两 个 操作 都 只 会 访问 一 条 路 径 上 的 结 点 ， 所 以 任何 查找 或 者 插入 的 成 本 都 
肯定 不 会 超过 对 数 级 别 。 通 过 对 比 图 3.3.11 中 的 2-3 树 和 图 3.2.8 中 由 相同 的 键 构造 的 二 又 查找 树 ， 你 
也 可 以 看 到 ， 完 美 平衡 的 2-3 树 要 平展 得 多 。 例 如 ， 含 有 10 亿 个 结 点 的 一 棵 2-3 树 的 高 度 仅 在 19 到 
30 之 间 。 我 们 最 多 只 需要 访问 30 个 结 点 就 能 够 在 10 亿 个 键 中 进行 任意 查找 和 搬入 操作 ,这 是 相当 惊人 的 。 


图 3.3.11 ”由 随机 键 构造 的 一 棵 典型 的 2-3 树 
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但 是 ， 我 们 和 真正 的 实现 还 有 一 段 距离 。 尽 管 我 们 可 以 用 不 同 的 数据 类 型 表示 2- 结 点 和 3- 结 
点 并 写 出 变换 所 需 的 代码 ， 但 用 这 种 直 白 的 表示 方法 实现 大 多 数 的 操作 并 不 方便 ， 因 为 需要 处 理 的 


情况 实在 太 多 。 我 们 需要 维护 两 种 不 同类 型 的 结 点 ， 将 被 查找 的 键 和 结 点 中 的 每 个 键 进行 比较 ,将 
链接 和 其 他 信息 从 一 种 结 点 复制 到 另 一 种 结 点 ， 将 结 点 从 一 种 数据 类 型 转换 到 另 一 种 数据 类 型 ， 等 
等 。 实 现 这 些 不 仅 需要 大 量 的 代码 ， 而 且 它 们 所 产生 的 额外 开销 可 能 会 使 算法 比 标准 的 二 又 查找 树 


更 慢 。 平 衔 一 棵 树 的 初衷 是 为 了 消除 最 坏 情 况 ， 但 我 们 希望 这 种 保障 所 需 的 代码 能 够 越 少 越 好 。 李 ”|429 
运 的 是 你 将 看 到 ， 我 们 只 需要 一 点 点 代价 就 能 用 一 种 统一 的 方式 完成 所 有 变换 。 431 


3.3.2” 红 黑 二 又 查找 树 


上 文 所 述 的 2-3 树 的 插入 算法 并 不 难 理解 ， 现 在 我 们 会 看 到 它 也 不 难 实现 。 我 们 要 学 习 一 种 名 
为 红 黑 二 又 查找 树 的 简单 数据 结构 来 表达 并 实现 它 。 最 后 的 代码 量 并 不 大 ,但 理解 这 些 代码 是 如 何 


3.3.2.1 替换 3- 结 点 


全 由 2- 结 点 构成 ) 和 一 些 人 额外 的 信息 ( 
树 。 我 们 将 树 中 的 链接 分 为 两 种 类 型 ; 
接 起 来 构成 一 个 3- 结 点 ， 黑 链接 则 是 


工作 的 以 及 为 什么 能 够 工作 却 需要 一 番 仔 细 的 探究 。 


红 黑 二 又 查找 树 背 后 的 基本 思想 是 用 标准 的 二 又 查找 树 ( 完 ”3- 结 点 


蔡 换 3 - 结 点 ) 来 表示 2-3 

红 链 接 将 两 个 2- 结 点 连 小 FaN ( 宽 5 和 0 (大 于 b 

2-3 树 中 的 普通 链接 。 确 mT TA Te 
(b) 


切 地 说 ， 我 们 将 3- 结 点 表示 为 由 一 条 左 儿 的 红色 链接 ( 两 个 2- 


结 点 其 中 之 一 是 另 一 个 的 左 子 结 点 ) 相连 的 两 个 2- 结 点 ， 如 图 © - 
3.3.12 所 示 。 这 种 表示 法 的 一 个 优点 是 ， 我 们 无 需 修改 就 可 以 直 Na 一 
接 使 用 标准 二 又 查找 树 的 getO 方法 。 对 于 任意 的 2.3 树 , 只 人 2 于 之 

要 对 结 点 进行 转换 ， 我 们 都 可 以 立即 派生 出 一 棵 对 应 的 一 又 在 ai， 和 i 色 大 刍 术 由 和 
找 树 。 我 们 将 用 这 种 方式 表示 2-3 树 的 二 叉 杏 找 树 称 为 红 黑 二 又 ”的 机 从 2 经 点 直 二 


查找 树 ( 以 下 简称 为 红 黑 树 ) 。 
3.3.2.2 一 种 等 价 的 定义 


个 3- 结 点 ( 男 见 彩 插 ) 


红 黑 树 的 男 一 种 定义 是 含有 红 黑 链接 并 满足 下 列 条 件 的 二 又 查 找 树 : 


口 红 链接 均 为 左 链接 ; 


满足 这 样 定义 的 红 黑 树 和 相应 的 2 
3.3.2.3 ”一 一 对 应 


口 没有 任何 一 个 结 点 同时 和 两 条 红 链 接 相 连 ; 
口 该 树 是 完美 黑色 平衡 的 ， 即 任意 空 链接 到 根 结 点 的 路 径 上 的 黑 链 接 数量 相同 。 


-3 树 是 一 一 对 应 的 。 


如 果 我 们 将 一 棵 红 黑 树 中 的 红 链 接 画 平 , 那么 所 有 的 空 链接 到 根 结 点 的 距离 都 将 是 相同 的 ( 如 
图 3.3.13 所 示 ) 。 如 果 我 们 将 由 红 链 接 相 连 的 结 点 合并 ， 得 到 的 就 是 一 棵 2-3 树 。 相 反 ， 如 果 将 


一 棵 2-3 树 中 的 3- 结 点 画作 由 红色 左 


链接 相连 的 两 个 2- 结 点 ， 那 么 不 会 存在 能 够 和 两 条 红 链 接 


相连 的 结 点 ， 且 树 必 然 是 完美 黑色 平衡 的 ， 因 为 黑 链 接 即 2-3 树 中 的 普通 链接 ， 根 据 定 义 这 些 链 


接 必 然 是 完美 平衡 的 。 无 论 我 们 选择 


用 何 种 方式 去 定义 它们 ,， 红 黑 树 都 既是 二 义 查 找 树 ， 也 是 2-3 


树 ， 如 图 3.3.14 所 示 。 因 此 ， 如 果 我 们 能 够 在 保持 一 一 对 应 关系 的 基础 上 实现 2-3 树 的 插入 算法 ， 
那么 我 们 就 能 够 将 两 个 算法 的 优点 结合 起 来 : 二 又 查找 树 中 简洁 高 效 的 查找 方法 和 2-3 树 中 高 效 


的 平衡 插入 算法 。 
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图 3.3.13 ”将 红 链 接 画 平时 ， 一 棵 红 黑 树 就 是 一 棵 2-3 树 ( 另 见 彩 插 ) 
3.3.2.4 ”颜色 表示 
方便 起 见 ， 因 为 每 个 结 点 都 只 会 有 一 条 指向 自己 的 链接 ( 从 它 的 父 结 点 指向 它 ) ， 我 们 将 
链接 的 颜色 保存 在 表示 结 点 的 Node 数 据 类 型 的 布尔 变量 color 中 。 如 果 指 向 它 的 链接 是 红色 的 ， 
那么 该 变量 为 true， 黑 色 则 为 false。 我 们 约定 空 链接 为 黑色 。 为 了 代码 的 清晰 我 们 定义 了 两 
个 常量 RED 和 BLACK 来 设置 和 测试 这 个 变量 。 我 们 使 用 私有 方法 1sRed() 来 测试 一 个 结 点 和 
它 的 父 结 点 之 间 的 链接 的 颜色 。 当 我 们 提 到 一 个 结 点 的 颜色 时 ， 我 们 指 的 是 指向 该 结 点 的 链接 
的 颜色 ， 反 之 亦 然 。 颜 色 表 示 的 代码 实现 如 图 3.3.15 所 示 。 
h.left.color de a 
下 heFToht color 
的 值 是 RED 、 才 的 值 是 BLACK 
红 黑 树 
private static final boolean RED = true; 
private static final boolean BLACK = false; 
private class Node 
Key key; // 键 
Value val; // 相关 联 的 值 
Node 1left，right; // 左右 子 树 
int N; // 这 棵 子 树 中 的 结 点 总 数 
boolean color; // 由 其 父 结 点 指向 它 的 链接 的 颜色 


Node(Key key, Value val, int N, boolean color) 
{ 


key; 
val; 
N; 
color; 


this.key 
this.val 
this.N 
this.color 


} 


2-3 树 


} 


private boolean isRed(Node x) 


if (x == null) return false; 
return x.color == RED; 


图 3.3.14 红 夺 树 和 2-3 树 的 一 一 对 应 关系 ( 男 见 彩 插 ) ”图 3.3.15 ” 红 黑 树 的 结 点 表示 ( 另 见 彩 插 ) 


3.3.2.5 ”旋转 

在 我 们 实现 的 某 些 操作 中 可 能 会 出 现 红色 右 链接 或 者 两 条 连续 的 红 链 接 ， 但 在 操作 完成 前 这 些 
情况 都 会 被 小 心地 旋转 并 修复 。 旋 转 操作 会 改变 红 链 接 的 指向 。 首 先 ， 假 设 我 们 有 一 条 红色 的 右 链 
接 需 要 被 转化 为 左 链接 (请 见 图 3.3.16 ) 。 这 个 操作 叫做 左旋 转 ， 它 对 应 的 方法 接受 一 条 指向 红 黑 
树 中 的 某 个 结 点 的 链接 作为 参数 。 假 设 被 指向 的 结 点 的 右 链 接 是 红色 的 ， 这 个 方法 会 对 树 进行 必要 
的 调整 并 返回 一 个 指向 包含 同一 组 键 的 子 树 且 其 左 链接 为 红色 的 根 结 点 的 链接 。 如 果 你 对 照 图 示 中 
调整 前 后 的 情况 逐 行 阅读 这 段 代 码 ， 你 会 发 现 这 个 操作 很 容易 理解 : 我 们 只 是 将 用 两 个 键 中 的 较 小 
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者 作为 根 结 点 变 为 将 较 大 者 作为 根 结 点 。 实 现 将 一 个 红色 左 链接 转换 为 一 个 红色 右 链 接 的 一 个 右 旋 
转 的 代码 完全 相同 ， 只 需要 将 left 和 right 互 换 即 可 ( 如 图 3.3.17 所 示 ) 。 
3.3.2.6 ”在 旋转 后 重 置 父 结 点 的 链接 


无 论 左 旋转 还 是 右 旋转 ， 旋 转 操作 都 会 返回 一 条 链接 。 我 们 总 是 会 用 rotateRight() 或 
rotateLeft() 的 返回 值 重 置 父 结 点 ( 或 是 根 结 点 ) 中 相应 的 链接 。 返 回 的 链接 可 能 是 左 链接 也 
可 能 是 右 链 接 , 但 是 我 们 总 会 将 它 赋予 父 结 点 中 的 链接 。 这 个 链接 可 能 是 红色 也 可 能 是 黑色 一 一 
rotateLeft() 和 rotateRight() 都 通过 将 x.color 设 为 h.color 保留 它 原来 的 颜色 。 这 可 
能 会 产生 两 条 连续 的 红 链 接 ， 但 我 们 的 算法 会 继续 用 旋转 操作 修正 这 种 情况 。 人 例如， 代码 h = 
rotateLeft(h); 将 旋转 结 点 h 的 红色 右 链接 ， 使 得 h 指向 了 旋转 后 的 子 树 的 根 结 点 ( 组 成 该 子 树 
中 的 所 有 键 和 旋转 前 相同 ， 只 是 根 结 点 发 生 了 变化 )。 这 种 简洁 的 代码 是 我 们 使 用 递归 实现 二 叉 查 
找 树 的 各 种 方法 的 主要 原因 。 你 会 看 到 ， 它 使 得 旋转 操作 成 为 了 普通 插入 操作 的 一 个 简单 补充 。 


可 能 是 左 链接 也 可 能 是 


h、 < 一 右 链 接 ， 颜 色 可 红 可 黑 2 
让 于 E 大 下 S 
介 于 E 3 
和 S 之 间 ) ( 大 于 S 小 于 E 和 2 
ns rotateLeft(Node h) Na rotateRight(Node h) 
Node x = h.right; Node x = h.left:; 
h.right = x.left; h.left = x.right; 
x.left = h; x.right = h; 
x.color = h.color; x.color = h.color; 
h.color = RED; h.color = RED; 
x.N = h.N; x.N = h.N; 
h.N= 1 + size(h.left) h.N= 1 + size(h.left) 
+ size(h.right); + size(h.right); 
return x; return x; 
} x x、、 
A C5 PE) /pe 
小 于 E ) ( 和 S 之 间 和 S 之 间 ) ( 大 于 S 
图 3.3.16 ”左旋 转 h 的 右 链接 ( 另 见 彩 插 ) 图 3.3.17 右 旋转 h 的 左 链接 ( 另 见 彩 插 ) 434 
在 插入 新 的 键 时 我 们 可 以 使 用 旋转 操作 帮助 我 们 保证 2-3 树 和 红 黑 树 之 间 的 一 一 对 应 关系 ， 因 为 旋 
转 操作 可 以 保持 红 黑 树 的 两 个 重要 性 质 : 有 序 性 和 完美 平衡 性 。 也 就 是 说 ， 我 们 在 红 黑 树 中 进行 旋转 时 
无 需 为 树 的 有 序 性 或 者 完美 平衡 性 担心 。 下 面 我 们 来 看 看 应 该 如 何 使 用 旋转 操作 来 保持 红 黑 树 的 另外 两 
个 重要 性 质 (不 存在 两 条 连续 的 红 链 接 和 不 存在 红色 的 右 链接 ) 。 我 们 先 用 一 些 简单 的 情况 热 热身 。 
3.3.2.7 ”向 单个 2- 结 点 中 插入 新 键 
一 棵 只 含有 一 个 键 的 红 黑 树 只 含有 一 个 2- 结 点 。 插 入 另 一 个 键 之 后 ， 我 们 马上 就 需要 将 它们 
旋转 。 如 果 新 键 小 于 老 键 ， 我 们 只 需要 新 增 一 个 红色 的 结 点 即 可 ， 新 的 红 黑 树 和 单个 3- 结 点 完全 等 
价 。 如 果 新 键 大 于 老 键 ， 那 么 新 增 的 红色 结 点 将 会 产生 一 条 红色 的 右 链 接 。 我 们 需要 使 用 root = 


rotateLeft(root); 来 将 其 旋转 为 红色 左 链接 并 修正 根 结 点 的 链接 ， 搬 和 人 操作 才 算 完成 。 两 种 情 
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查 


况 的 结果 均 为 一 棵 和 自 
如 图 3.3.18 所 示 。 
3.3.2.8 向 树 底部 的 2- 结 点 插入 新 键 


个 3- 结 点 等 价 的 红 黑 树 , 其 中 含有 两 个 键 , 一 条 


红 链 接 , 树 的 黑 链 接 高 度 为 1， 


用 和 二 又 查找 树 相 同 的 方式 向 一 棵 红 黑 树 中 插入 一 个 新 键 会 在 树 的 底部 新 增 一 个 结 点 〈 为 了 保 
证 有 序 性 ) ， 但 总 是 用 红 链 接 将 新 结 点 和 它 的 父 结 点 相连 。 如 果 它 的 父 结 点 是 一 个 2- 结 点 ， 那 么 
刚才 讨论 的 两 种 处 理 方法 仍然 适用 。 如 果 指 向 新 结 点 的 是 父 结 点 的 左 链 接 ， 那 么 父 结 点 就 直接 成 为 


了 一 个 3- 结 点 ; 


就 能 够 修正 它 ， 如 图 3.3.19 所 示 。 


向 左 插入 根 结 点 


查找 结束 
于 该 空 链接 
一 根 结 点 
指向 含有 a 的 
(@f 人 新 结 点 的 红 链 
接 将 这 个 2- 结 点 
变 为 一 个 3- 结 点 


向 右 插入 Pe 
ep 查找 结束 
了 于 该 空 链 接 
全 用 红 链 接 和 
< 新 结 点 相连 
(b) 


一 根 结 点 


左旋 转 得 到 
YN 左旋 转 得 到 一 
a 个 正常 的 3- 结 点 


如 果 指 向 新 结 点 的 是 父 结 点 的 右 链接 ， 这 


3.3.18 ”向 单个 2- 结 点 中 插入 一 个 新 键 


( 另 见 彩 插 ) 


就 是 一 个 错误 的 3- 结 点 ， 


但 一 次 左旋 转 


入 新 结 点 
出 现 红 色 右 链接 ， 
进行 左旋 转 


( 另 见 彩 所 


3.3.2.9 ”向 一 棵 双 键 树 〈 即 一 个 3- 结 点 ) 中 插入 新 键 
这 种 情况 又 可 分 为 三 种 子 情况 : 新 键 小 于 树 中 的 两 个 键 ， 在 两 者 之 间 , 或 是 大 于 树 中 的 两 个 键 。 


时 


树 是 平衡 的 ， 根 结 点 为 中 间 大 小 的 键 ， 
1 红 变 黑 ， 那 么 我 们 就 得 到 了 一 棵 由 


我 们 将 两 条 链接 的 颜色 都 


树 。 它 正好 能 够 对 应 一 棵 2-3 树 ， 如 医 
它 会 被 连接 到 最 左边 
链接 ， 如 图 3.3.20 ( 中 ) 。 此 时 我 们 只 需要 将 上 层 的 纪 


口 如 果 新 键 小 于 原 树 中 的 两 个 键 ， 


图 | 


图 3.3.19 ”向 树 底部 的 2- 结 点 插入 一 个 新 键 


) 


种 情况 中 都 会 产生 一 个 同时 连接 到 两 条 红 链 接 的 结 点 ， 而 我 们 的 目标 就 是 修正 这 一 点 。 


口 三 者 中 最 简单 的 情况 是 新 键 大 于 原 树 中 的 两 个 键 ， 因 此 它 被 连接 到 3- 结 点 的 右 链 接 。 此 时 


它 有 两 条 红 链 接 分 别 和 较 小 和 较 大 的 结 点 相连 。 如 果 


三 个 结 点 组 成 、 高 为 2 的 平衡 


3.3.20( 左 ) 。 其 他 两 种 ! 


值 键 为 根 结 点 并 和 其 他 两 个 结 点 用 红 链 接 相 连 ) 。 
口 如 果 新 键 介 于 原 树 中 的 两 个 键 之 间 ， 这 又 会 产生 两 条 连续 的 红 链 接 ， 一 条 红色 左 链接 接 一 条 


条 


况 【 


两 条 连续 的 红色 左 链接 ) 。 


青 况 最 终 也 会 转化 为 这 种 情况 。 


的 空 链接 ， 这 样 就 产生 了 两 条 连续 的 红 
[链接 右 旋转 即 可 得 到 第 一 种 情况 ( 中 


色 右 链接 ， 如 图 3.3.20 ( 右 ) 。 此 时 我 们 只 需要 将 下 层 的 红 链 接 左 旋转 即 可 得 到 第 二 种 情 


总 的 来 说 ， 我 们 通过 0 次 、1 次 和 2 次 旋转 以 及 颜色 的 变化 得 到 了 期 


3.3 平衡 查找 树 


望 的 结果 。 在 2-3 树 中 ， 


请 确认 你 完全 理解 了 这 些 转换 ， 它 们 是 红 黑 树 的 动态 变化 的 关键 。 
新 键 最 大 新 键 最 小 新 键 介 于 两 者 之 间 
查找 结束 fc @ 
Gf Th 1 (af __ 查找 结束 
~ 查找 结束 于 该 空 链接 
于 该 空 链接 局 
用 红 链 接 和 © (a 。 用 红 链 接 和 
JP 一 新 结 点 相连 ”但 六。 新 结 点 相连 
Soo (aj ~、 用 红 链 接 和 
新 结 点 相连 fc 
(b) 
(6、 旋转 后 变 为 【ad ~ 旋转 后 变 为 红色 左 链 按 
me 红色 右 链接 
es 5 [认为 
(a cl Ce 
[EN 将 训 摘 6 的 
.一 色 变 为 黑 a 
租 链 接 颇 
“和 < OW 
(af bc 


3.3.2.10 ”颜色 转换 

如 图 3.3.21 所 示 ， 我 们 专门 用 一 个 方法 f1ipCo- 
lors( 来 转换 一 个 结 点 的 两 个 红色 子 结 点 的 颜色 。 除 
了 将 子 结 点 的 颜色 由 红 变 黑 之 外 ， 我 们 同时 还 要 将 父 
结 点 的 颜色 由 黑 变 红 。 这 项 操作 最 重要 的 性 质 在 于 它 
和 旋转 操作 一 样 是 局 部 变换 ， 不 会 影响 整 棵 树 的 黑色 


ZR 


平衡 性 。 根 据 这 一 点 ， 我 们 马上 能 够 在 下 面 完 整地 实 
现 红 黑 树 。 
3.3.2.11 ” 根 结 点 总 是 黑色 


在 3.3.2.9 所 述 的 情况 中 ， 颜 色 转 换 会 使 根 结 点 变 
为 红色 。 这 也 可 能 出 现在 很 大 的 红 黑 树 中 。 严 格 地 说 ， 
红色 的 根 结 点 说 明 根 结 点 是 一 个 3- 结 点 的 一 部 分 ,但 
实际 情况 并 不 是 这 样 。 因 此 我 们 在 每 次 搬入 后 都 会 将 


根 结 点 设 为 黑色 。 注 意 ， 每 当 根 结 点 由 红 变 黑 时 树 的 


黑 链 接 高 度 就 会 加 1。 
3.3.2.12 ”向 树 底部 的 3- 结 点 插入 新 键 

现在 假设 我 们 需要 在 树 的 底部 的 一 个 3- 结 点 下 加 
入 一 个 新 结 点 。 前 面 讨论 过 的 三 种 情况 都 会 出 现 ， 如 


图 3.3.22 所 示 。 指 向 新 结 点 的 链接 可 能 是 3- 结 点 的 右 


情况 ( 另 见 彩 插 ) 


可 能 是 左 链 接 ， 
也 可 能 是 右 链接 


介 于 A 
和 E 之 间 


大 于 S 


旬 于 E 
和 S 之 间 


于 A 


小 


We flipColors (Node h) 


h.color = RED; 
h.left,color = BLACK; 
h.right.color = BLACK; 


用 红 链 接 将 中 间 
< 一 结 点 和 父 结 点 相连 


加 介 于 A 从 于 E 
小 于 A ) ( 和 E 之 间 ) ( 和 S 之 间 ) ( 大 于 S 
图 3.3.21 通过 转换 链接 的 颜色 来 分 解 
4- 结 点 ( 另 见 彩 插 ) 


链接 ( 此 时 我 们 只 需要 转换 颜色 即 可 ) ， 或 是 左 链接 ( 此 时 我 们 需要 进行 右 旋转 然后 再 转换 颜色 ) ， 


或 是 中 链接 〈 此 时 我 


门 需要 先 左 旋转 下 层 链接 然后 右 旋 转 上 层 链 接 ， 最 后 再 转换 颜色 ) 。 颜 色 转 换 
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会 使 到 中 结 点 的 链接 变 红 ， 


相当 


点 。 这 意味 着 在 父 结 


点 中 继续 插入 一 个 


也 会 继续 用 相同 的 办 法 解决 这 个 问 题 。 
3.3.2.13 ”将 红 链 接 在 树 中 向 上 传递 


2-3 树 中 的 插入 算法 需要 我 们 分 解 3- 结 点 ， 
结 点 ， 如 此 这 般 - 
结 点 或 是 根 结 点 。 我 们 所 考虑 过 的 所 
是 为 了 达成 这 个 目标 : 每 次 必要 
都 会 进行 颜色 转换 ， 这 使 得 中 结 点 变 红 。 在 父 结 


将 中 间 键 插入 父 


直到 遇 到 一 个 2- 
情况 都 正 
的 旋转 之 后 我 们 


于 将 它 送 入 了 父 结 
新 键 ， 我 们 


插入 H 


“出 现 两 条 连续 的 左 
链接 ， 


Eh 


点 看 来 ， 处 理 这 样 一 个 红色 结 点 的 方式 和 处 理 一 拥有 两 个 红色 子 链接 ， 
个 新 插入 的 红色 结 点 完全 相同 ， 即 继续 把 红 链 接 wa wn 
转移 到 中 结 点 上 去 。 图 3.3.23 中 总 结 的 三 种 情况 @ 全 

显示 了 在 红 黑 树 中 实现 2-3 树 的 插入 算法 的 关键 of 
操作 所 需 的 步骤: 要 在 一 个 3- 缚 点 下 插入 新 键 ee 

先 创建 一 个 临时 的 4- 结 点 ， 将 其 分 解 并 将 红 链 接 | 

中间 键 传递 给 它 的 父 结 点 。 重 复 这 个 过 程 ， 我 


们 就 能 
结 点 或 者 根 结 点 。 


SS 右 旋转 和 颜 
种 简单 的 操作 ， 我 们 就 能 够 保证 插入 
Beside st 


色 转 换 这 三 


将 红 链 接 在 树 中 向 上 传递 , 直至 遇 到 一 个 2- 


© LR 
(A oe 
@ 
(EL 
(WM 
(A 


插入 点 到 根 结 点 的 路 径 向 上 移动 时 在 所 经 过 的 每 
个 结 点 中 顺序 完成 以 下 操作 ， 我 们 就 能 完成 插入 
操作 : 图 3.3.22 ”向 树 底部 的 3- 结 点 插入 一 个 新 键 ( 另 
口 如 果 右 子 结 点 是 红色 的 而 左 子 结 点 是 黑色 见 彩 插 ) 
的 ， 进 行 左旋 转 ; 
口 如 果 左 子 结 点 是 红色 的 且 它 的 左 子 结 点 也 是 红色 的 ， 进 行 右 旋转 ; 
口 如 果 左 右 子 结 点 均 为 红色 ， 进 行 颜色 转换 。 


Ge A 


有 


本 


红 潜 树 中 


链接 向 上 传递 ( 另 


见 彩 插 ) 


你 应 该 花 点 时 间 确 认 以 上 步 又 处 理 了 前 文 描 
述 的 所 有 情况 。 请 注意 , 第 一 个 操作 表示 将 一 个 2- 
结 点 变 为 一 个 3- 结 点 和 插入 的 新 结 点 与 树 底部 的 

通过 它 的 中 链接 相连 的 两 种 情况 。 


3.3.3 ”实现 

因为 保持 树 的 平衡 性 所 需 的 操作 是 由 下 向 上 
在 每 个 所 经 过 的 结 点 中 进行 的 ， 将 它们 植 和 我们 
已 有 的 实现 中 十 分 简单 : 只 需要 在 递归 调用 之 后 
完成 这 些 操作 即 可 ， 如 算法 3.4 所 示 。 上 一 段 中 
列 出 的 三 种 操作 都 可 以 通过 一 个 检测 两 个 结 点 的 
颜色 的 if 语句 完 成 。 尽管 实现 所 需 的 代码 量 很 小 ， 


3.3 平衡 查找 村 本 281 


但 如 果 没 有 我 们 学 习 过 的 两 种 抽象 数据 结构 (2-3 树 和 红 黑 树 ) 作为 铺垫 ， 这 段 实现 仍然 会 非常 难 
以 理解 。 在 检查 了 三 到 五 个 结 点 的 颜色 之 后 ( 也 许 还 需要 进行 一 两 次 旋转 以 及 颜色 转换 ) ， 我 们 就 
可 以 得 到 一 棵 近乎 完美 平衡 的 二 又 查找 树 。 

图 3.3.24 给 出 了 使 用 我 们 的 标准 索引 测试 用 例 进 行 测试 的 轨迹 和 用 同一 组 键 按照 升序 构造 一 棵 
红 黑 树 的 测试 轨迹 。 仅 从 红 黑 树 的 三 种 标准 操作 的 角度 分 析 这 些 例 子 对 我 们 理解 问题 很 有 帮助 ， 之 
前 我 们 也 是 这 样 做 的 。 另 一 个 基本 练习 是 检查 它们 和 2-3 树 的 一 一 对 应 关系 ( 可 以 对 比 图 3.3.10 中 


由 同一 组 键 构造 的 2-3 树 ) 。 在 两 种 情况 中 你 都 能 通过 思考 将 P 插入 红 黑 树 所 需 的 转换 来 检验 你 对 人 
算法 的 理解 程度 (请 见 练习 3.3.12 ) 。 438 


算法 3.4” 红 黑 树 的 插入 算法 


public class RedBlackBST<Key extends Comparable<Key>, Value> 


{ 

private Node root; 

private class Node // 含有 color 交 量 的 Node 对 人 象 (请 见 3.3.2.4 节 ) 

private boolean isRed(Node h) // 请 见 3.3.2.4 节 

private Node rotateLeft(Node h) // 请 见 图 3.3.16 

private Node rotateRight(Node h) // 请 见 图 3.3.17 

private void flipColors(CNode h) // 请 见 图 3.3.21 

private int size() // 请 见 算法 3.3 

public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 其 值 ， 否 则 为 它 新 建 一 个 结 点 
root = put(root, key, val); 
root.color = BLACK; 

3 

private Node put(Node h, Key key, Value val) 

{ 
if (Ch == nu11) // 标准 的 插入 操作 ， 和 父 结 点 用 红 链 接 相连 

return new Node(key, val, 1, RED); 

int cmp = key.compareTo(h.key); 
if (cmp < 0) h.left = put(h.left, key, val); 
else if (cmp > 0) h.right = put(h.right, key, val); 
else h.val = val; 
if (isRed(h.right) && !isRed(h.left)) h = rotateLeft(h); 
if (CisRed(h.left) && isRed(Ch.left.left)) h = rotateRight(h); 
if (isRed(h.left) && isRed(h.right)) fliipColors (h) ; 
h.N = size(h.left) + size(h.right) + 1; 
return h; 

} 

} 


除了 递归 调用 后 的 三 条 if 语 句 , 红 黑 树 中 put() 的 递归 实现 和 二 又 查找 树 中 put 0 的 实现 完全 相同 。 
它们 在 查找 路 径 上 保证 了 红 黑 树 和 2-3 树 的 一 一 对 应 关系 ， 使 得 树 的 平衡 性 接近 完美 。 第 一 条 if 语句 会 
将 任意 含有 红色 右 链 接 的 3- 结 点 (或 临时 的 4- 结 点 ) 向 左旋 转 ; 第 二 条 if 语句 会 将 临时 的 4- 结 点 中 两 
条 连续 红 链接 中 的 上 层 链接 向 右 旋转 ; 第 三 条 if 语句 会 进行 颜色 转换 并 将 红 链接 在 树 中 向 上 传递 ( 详情 
请 见 正文 ) 。 2 
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标准 索引 测试 用 例 用 同一 组 键 按照 升序 插入 来 构造 一 棵 红 黑 树 


图 3.3.24” 红 黑 树 的 构造 轨迹 ( 另 见 彩 插 ) 


3.3.4 删除 操作 

算法 3.4 中 的 putQ 〇 方法 是 本 书 中 最 复杂 的 实现 之 一 ， 而 红 黑 树 的 deleteMin()、delete- 
Max() 和 delete() 的 实现 更 麻烦 ， 我 们 将 它们 的 完整 实现 留 做 练习 ， 但 这 里 仍然 需要 学 习 它 们 的 
基本 原理 。 要 描述 删除 算法 ， 首 先 我 们 要 回 到 2-3 树 。 和 插入 操作 一 样 ， 我 们 也 可 以 定义 一 系列 局 
部 变换 来 在 删除 一 个 结 点 的 同时 保持 树 的 完美 平衡 性 。 这 个 过 程 比 插入 一 个 结 点 更 加 复杂 ， 因 为 我 
们 不 仅 要 在 (为 了 删除 一 个 结 点 而 ) 构造 临时 4- 结 点 时 沿 着 查找 路 径 向 下 进行 变换 ， 还 要 在 分 解 
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遗留 的 4- 结 点 时 沿 着 查找 路 径 向 上 进行 变换 ( 同 插入 操作 ) 。 
3.3.4.1 自 顶 向 下 的 2-3-4 树 

作为 第 一 轮 热 身 ， 我 们 先 学 习 一 个 沿 查找 路 径 既 能 向 上 也 能 在 根 结 点 
向 下 进行 变换 的 稍 简单 的 算法 : 2-3-4 树 的 插入 算法 ，2-3-4 树 中 C+ 
允许 存在 我 们 以 前 见 过 的 4- 结 点 。 它 的 插入 算法 沿 查 找 路 径 向 下 
进行 变换 是 为 了 保证 当前 结 点 不 是 4- 结 点 ( 这 样 树 底 才 有 空间 来 
插入 新 的 键 ) ， 沿 查找 路 径 向 上 进行 变换 是 为 了 将 之 前 创建 的 4- 
结 点 配 平 , 如 图 3.3.25 所 示 。 向 下 的 变换 和 我 们 在 2-3 树 中 分 解 4- 
结 点 所 进行 的 变换 完全 相同 。 如 果 根 结 点 是 4- 结 点 ， 我 们 就 将 它 
分 解 成 三 个 2- 结 点 ， 使 得 树 高 加 1。 在 向 下 查找 的 过 程 中 ， 如 果 


遇 到 一 个 父 结 点 为 2- 结 点 的 4 结 点 , 我 们 将 4- 结 点 分 解 为 两 个 2- A 


在 沿 查找 路 径 向 下 的 过 程 中 


Ho 


=p 
i 


结 点 并 将 中 间 键 传递 给 它 的 父 结 点 , 使 得 父 结 点 变 为 一 个 3- 结 点 ; 
如 果 遇 到 一 个 父 结 点 为 3- 结 点 的 4- 结 点 ， 我 们 将 4- 结 点 分 解 为 
两 个 2- 结 点 并 将 中 间 键 传递 给 它 的 父 结 点 ， 使 得 父 结 点 变 为 一 个 
4- 结 点 ;我们 不 必 担 心 会 遇 到 父 结 点 为 4 结 点 的 4- 结 点 ， 因 为 
插入 算法 本 身 就 保证 了 这 种 情况 不 会 出 现 。 到 达 树 的 底部 之 后 ， 
我 们 也 只 会 遇 到 2- 结 点 或 者 3- 结 点 ,所 以 我 们 可 以 插入 新 的 键 。 在 树 底 


Di 说 芭 悦动 


要 用 红 黑 树 实现 这 个 算法 ， 我 们 需要 ， a 
口 将 4 结 点 表示 为 由 三 个 2- 结 点 组 成 的 一 棵 平衡 的 子 树 ， 
根 结 点 和 两 个 子 结 点 都 用 红 链 接 相 连 ; 
口 在 向 下 的 过 程 中 分 解 所 有 4- 结 点 并 进行 颜色 转换 ; a 
口 和 插入 操作 一 样 ,在 向 上 的 过 程 中 用 旋转 将 4- 结 点 配 平 "。 的 插入 算法 中 的 变换 。 [441 


令 人 惊讶 的 是 ， 你 只 需要 移动 算法 3.4 的 putQ 〇 方法 中 的 一 行 代码 就 能 实现 2-3-4 树 中 的 插入 
操作 : 将 colorF1ipQ 〇 语句 (及 其 if 语句 ) 移动 到 递归 调用 之 前 (nu11 测试 和 比较 操作 之 间 ) 。 
在 多 个 进程 可 以 同时 访问 同一 棵 树 的 应 用 中 这 个 算法 优 于 2-3 树 ， 因 为 它 操作 的 总 是 当前 结 点 的 一 
个 或 两 个 链接 。 我 们 下 面 要 讲 的 删除 算法 和 它 的 插入 算法 类 似 ， 而 且 也 适用 于 2-3 树 。 
3.3.4.2 ”删除 最 小 键 

在 第 二 轮 热 身 中 我 们 要 学 习 2-3 树 中 删除 最 小 键 的 操作 。 我 们 注意 到 从 树 底部 的 3- 结 点 中 删除 
键 是 很 简单 的 ， 但 2- 结 点 则 不 然 。 从 2- 结 点 中 删除 一 个 键 会 留 下 一 个 空 结 点 ， 一 般 我 们 会 将 它 蔡 
换 为 一 个 空 链接 ， 但 这 样 会 破坏 树 的 完美 平衡 性 。 所 以 我 们 需要 这 样 做 : 为 了 保证 我 们 不 会 删除 一 
个 2- 结 点 ,我 们 沿 着 左 链接 向 下 进行 变换 ， 确 保 当前 结 点 不 是 2- 结 点 〈 可 能 是 3- 结 点 ， 也 可 能 是 
5 时 的 4- 结 点 ) 。 首 先 ， 根 结 点 可 能 有 两 种 情况 。 如 果 根 是 2- 结 点 且 它 的 两 个 子 结 点 都 是 2- 结 点 ， 
我 们 可 以 直接 将 这 三 个 结 点 变 成 一 个 4- 结 点 ; 否则 我 们 需要 保证 根 结 点 的 左 子 结 点 不 是 2- 结 点 ， 
如 有 必要 可 以 从 它 右 侧 的 兄弟 结 点 “ 借 ” 一 个 键 来 。 以 上 情况 如 图 3.3.26 所 示 。 在 沿 着 左 链接 向 下 
的 过 程 中 ， 保 证 以 下 情况 之 一 成 立 : 

口 如 果 当 前 结 点 的 左 子 结 点 不 是 2- 结 点 ， 完 成 ; 
口 如 果 当 前 结 点 的 左 子 结 点 是 2- 结 点 而 它 的 亲 兄弟 结 点 不 是 2- 结 点 ， 将 左 子 结 点 的 兄弟 结 点 
中 的 一 个 键 移动 到 左 子 结 点 中 ; 


Es 


GD 因为 4- 结 点 可 以 存在 ， 所 以 可 以 允许 一 个 结 点 同时 连接 到 两 条 链接 。 一 一 译 者 注 
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口 如 果 当 前 结 点 的 左 子 结 点 和 它 的 亲 兄弟 结 点 都 。 在 根 结 点 
是 2- 结 点 ， 将 左 子 结 点 、 父 结 点 中 的 最 小 键 加 
和 左 子 结 点 最 近 的 兄弟 结 点 合并 为 一 个 4- 结 a 
点 ， 使 父 结 点 由 3- 结 点 变 为 2- 结 点 或 者 由 4- 
结 点 变 为 3- 结 点 。 (hb G 
在 遍历 的 过 程 中 执行 这 个 过 程 ， 最 后 能 够 得 到 一 @) ”Gap (de) 
个 含有 最 小 键 的 3- 结 点 或 者 4- 结 点 ， 然 后 我 们 就 可 
以 直接 从 中 将 其 删除 ， 将 3- 结 点 变 为 2- 结 点 ， 或 者 。“ 在 沿 左 链接 向 下 的 过 程 中 
将 4 结 点 变 为 3- 结 点 。 然 后 我 们 再 回头 向 上 分 解 所 
有 临时 的 4- 结 点 。 @ ”ab (de) 
3.3.4.3 ”删除 操作 
在 查找 路 径 上 进行 和 删除 最 小 键 相 同 的 变换 同样 de CE 
可 以 保证 在 查找 过 程 中 任意 当前 结 点 均 不 是 2- 结 点 。 ” @Y 外 
如 果 被 查找 的 键 在 树 的 底部 ， 我 们 可 以 直接 轴 除 它 。 
如 果 不 在 ， 我 们 需要 将 它 和 它 的 后 继 结 点 交换 ， 就 和 ”在 树 底 
二 叉 查 找 树 一 样 。 因 为 当前 结 点 必然 不 是 2- 结 点 ， 问 一 6 


题 已 经 转化 为 在 一 棵 根 结 点 不 是 2- 结 点 的 子 树 中 删除 
最 小 的 键 ， 我 们 可 以 在 这 棵 子 树 中 使 用 前 文 所 述 的 算 3.3.26 ”删除 最 小 键 操作 中 的 变换 
法 。 和 以 前 一 样 ， 删 除 之 后 我 们 需要 向 上 回溯 并 分 解 
余下 的 4- 结 点 。 
本 节 末 尾 的 练习 中 有 几 道 是 关于 这 些 删 除 算法 的 例子 和 实现 的 。 有 兴趣 理解 或 实现 删除 算法 的 
读者 应 该 掌握 这 些 练习 中 的 细节 。 对 算法 研究 感 兴趣 的 读者 应 该 认识 到 这 些 方法 的 重要 性 ， 因 为 这 
是 我 们 见 过 的 第 一 种 能 够 同时 实现 高 效 的 查找 、 插 入 和 删除 操作 的 符号 表 实现 。 下 面 我 们 将 会 验证 
这 一 点 。 


3.3.5” 红 黑 树 的 性 质 
研究 红 黑 树 的 性 质 就 是 要 检查 对 应 的 2-3 树 并 对 相应 的 2-3 树 进行 分 析 的 过 程 。 我 们 的 最 终结 
论 是 所 有 基于 红 黑 树 的 符号 表 实 现 都 能 保证 操作 的 运行 时 间 为 对 数 级 别 ( 范围 查找 除外 ， 它 所 需 的 
额外 时 间 和 返回 的 键 的 数量 成 正比 ) 。 我 们 重复 并 强调 这 一 点 是 因为 它 十 分 重要 。 
3.3.5.1 性 能 分 析 
首先 ,无论 键 的 插入 顺序 如 何 ， 红 黑 树 都 几乎 是 完美 平衡 的 ( 请 见 图 3.3.27 ) 。 这 从 它 和 2-3 
树 的 一 一 对 应 关系 以 及 2-3 树 的 重要 性 质 可 以 得 到 。 


命题 G。 一 棵 大 小 为 W 的 红 黑 树 的 高 度 不 会 超过 21gN。 


简略 的 证 明 。 红 黑 树 的 最 坏 情况 是 它 所 对 应 的 2-3 树 中 构成 最 左边 的 路 径 结 点 全 部 都 是 3- 结 点 
而 其 余 均 为 2- 结 点 。 最 左边 的 路 径 长 度 是 只 包含 2- 结 点 的 路 径 长 度 (~~ lgN) 的 两 倍 。 要 按照 
某 种 顺序 构造 一 棵 平均 路 径 长 度 为 21gN 的 最 差 红 黑 树 虽然 可 能 , 但 并 不 容易 。 如 果 你 喜欢 数学 ， 
你 也 许 会 喜欢 在 练习 3.3.24 中 探究 这 个 问题 的 答案 。 
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这 个 上 界 是 比较 保守 的 。 使 用 随机 的 键 序列 和 典型 应 用 中 常见 的 键 序列 进行 的 实验 都 证 明 ,， 在 
一 棵 大 小 为 Y 的 红 黑 树 中 一 次 查找 所 需 的 比较 次 数 约 为 (1.00lgM-0.5 ) 。 男 外 ， 在 实际 情况 下 你 不 
太 可 能 遇 到 比 这 个 数字 高 得 多 的 平均 比较 次 数 ， 如 表 3.3.1 所 示 。 


| 人 {| 
oh ANY fet A 


图 3.3.27 使 用 随机 键 构造 的 典型 红 黑 树 ， 没 有 画 出 空 链 接 ( 另 见 彩 插 ) 444 


表 3.3.1 使 用 RedBlackBST 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 


tale.txt leipzig1M .txt 
比较 次 数 比较 次 数 
单词 数 | 不 同 单词 数 单词 数 “| 不同 单词 数 
模型 预测 | 实际 次 数 模型 预测 | 实际 次 数 

所 有 单词 135 635 | 10 679 13.6 13.5 21 191 455 | 534 580 19.4 19.1 

8 的 14350 | 5737 12.6 12.1 4239597 | 299 593 E87 18.4 
长 度 大 于 等 于 10 | 4582 2 260 11.4 11.5 1610829 | 165 555 17.5 17.3 
的 单词 

命题 H。 一 棵 大 小 为 的 红 黑 树 中 ,， 根 结 点 到 任意 结 点 的 平均 路 径 长 度 为 ~ 1.00lgN。 


例证 。 和 和 典型 的 二 又 查找 树 ( 例如 图 3.2.8 中 所 示 的 树 ) 相 比 ， 一 棵 上 典型 的 红 黑 树 的 平衡 性 是 
很 好 的 ， 例 如 图 3.3.27 所 示 ( 甚至 是 图 3.3.28 中 由 升序 键 列 构造 的 红 黑 树 ) 。 表 3.3.1 显示 的 
数据 表明 FrequencyCounter 在 运行 中 构造 的 红 黑 树 的 路 径 长 度 ( 即 查 找 成 本 ) 比 初等 二 又 
查找 树 低 40% 左右 ， 和 和 预期 相符 。 自 红 黑 树 的 发 明 以 来 ,无 数 的 实验 和 实际 应 用 都 印证 了 这 
种 性 能 改进 。 


以 使 用 FrequencyCounter 在 处 理 长 度 大 于 等 于 8 的 单词 时 putQ 〇 操作 的 成 本 为 例 ， 我 们 可 
以 看 到 平均 成 本 降低 得 更 多 ( 如 图 3.3.29 所 示 ) 。 这 又 一 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 运 
行 时 间 ， 只 不 过 这 次 的 惊喜 比 二 又 查找 树 的 小 ， 因 为 性 质 G 已 经 向 我 们 保证 了 这 一 点 。 节 约 的 总 成 
本 低 于 在 查找 上 节约 的 40% 的 成 本 ， 因 为 除了 比较 我 们 也 统计 了 旋转 和 颜色 变换 的 次 数 。 
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3.3.28 ”使 用 升序 键 列 构造 的 一 棵 红 黑 树 ， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 


20 一 


品 | 
0 操作 14350 


到 3.3.29 使 用 RedBlackBST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 


红 黑 树 的 get 0) 方法 不 会 检查 结 点 的 颜色 ， 因 此 平衡 性 相关 的 操作 不 会 产生 任何 负担 ; 因为 树 
是 平衡 的 ， 所 以 查找 比 二 叉 查 找 树 更 快 。 每 个 键 只 会 被 插入 一 次 ， 但 却 可 能 被 查找 无 数 次 ， 因 此 最 
后 我 们 只 用 了 很 小 的 代价 ( 和 二 分 查找 不 同 ， 我 们 可 以 保证 插入 操作 是 对 数 级 别 的 ) 就 取得 了 和 最 
优 情况 近似 的 查找 时 间 ( 因为 树 是 接近 完美 平衡 的 ， 且 查找 过 程 中 不 会 进行 任何 平衡 性 的 操作 ) 。 
查找 的 内 循环 只 会 进行 一 次 比较 并 更 新 一 条 链接 ， 非 常 简短 ， 和 二 分 查找 的 内 循环 类 似 (只 有 比较 
和 索引 运算 ) 。 这 是 我 们 见 到 的 第 一 个 能 够 保证 对 数 级 别 的 查找 和 插入 操作 的 实现 ， 它 的 内 循环 更 
紧凑 。 它 通过 了 各 种 应 用 的 考验 ， 包 括 许多 库 实现 。 
3.3.5.2 ”有 序 符号 表 API 
红 黑 树 最 吸引 人 的 一 点 是 它 的 实现 中 最 复杂 的 代码 仅 限 于 putGO (和 删除 ) 方法 。 二 又 查 找 树 
中 的 查找 最 大 和 最 小 键 、select()、rank()、floor()、ceiling() 和 范围 查找 方法 不 做 任何 变 
动 即 可 继续 使 用 ， 因 为 红 黑 树 也 是 二 又 查找 树 而 这 些 操作 也 不 会 涉及 结 点 的 颜色 。 算 法 3.4 和 这 些 
方法 ( 以 及 删除 方法 ) 一 起 完整 地 实现 了 我 们 的 有 序 符号 表 API。 这 些 方法 都 能 从 红 黑 树 近 了 乎 完美 
的 平衡 性 中 受益 ， 因 为 它们 最 多 所 需 的 时 间 都 和 树 高 成 正比 。 因 此 命题 G 和 命题 E 一 起 保证 了 所 


446| 有 操作 的 运行 时 间 是 对 数 级 别 的 。 


命题 |。 
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在 一 棵 红 黑 树 中 ， 以 下 操作 在 最 坏 情 况 下 所 需 的 时 间 是 对 数 级 别 的 : 查找 (getC) ) 、 插 


入 (putGO ) 、 查 找 最 小 键 、 查 找 最 大 键 、floor()、ceiling()、rank()、select()、 删 除 最 小 
键 (deleteMin() ) 、 删 除 最 大 键 (deleteMax() ) 、 删 除 (delete() ) 和 范围 查询 ( range() ) 。 


证 明 。 我 们 已 经 讨论 过 put()、get() 和 delete() 方法 。 对 于 其 他 方法 ,代码 可 以 从 3.2 节 中 
照搬 ( 它们 不 涉及 结 点 颜色 ) 。 命题 G 和 命题 也 可 以 保证 算法 是 对 数 级 别 的 ， 所 有 操作 在 所 经 
过 的 结 点 上 只 会 进行 常数 次 数 的 操作 也 说 明了 这 一 点 。 


的 性 能 总 结 如 表 3.3.2 所 示 。 


表 3.3.2 各 种 符号 表 实 现 的 性 能 总 结 


最 坏 情况 下 的 运行 时 间 的 增长 平均 情况 下 的 运行 时 间 的 增长 
沾 [ 量 乡 次 > 百 量 乡 次 有 、 站 Se . 
算法 (数据 结构 ) 数量 级 (N 次 插入 之 后 ) 数量 级 (N 次 随机 插入 之 后 ) Se 
查找 插入 查找 插入 
顺序 查询 (无 序 链表 ) N N N/2 N 否 
二 分 查找 ( 有 序数 组 ) lgN N lgN N/2 是 
二 义 树 查 找 ( BST ) N N 1.39lgN 1.39leN 是 
2-3 树 查 找 ( 红 黑 树 ) 2lgN 2leN 1.00lgN 1.00lgN 是 
想 想 看 ， 这 样 的 保证 是 一 个 非 几 的 成 就 。 在 信息 世界 的 汪洋 大 海中 ， 表 的 大 小 可 能 上 千 亿 , 但 
我 们 仍 能 够 确保 在 几 十 次 比较 之 内 就 完成 这 些 操作 。 


问 ”为 什么 不 允许 存在 红色 右 链接 和 4- 结 点 ? 


答 它们 都 是 可 用 的 ， 


且 已 经 应 用 了 几 十 年 了 。 在 练习 中 你 会 遇 到 它们 。 只 允许 纪 


够 减少 可 能 出 现 的 情况 ， 因 此 实现 所 需 的 代码 会 少 得 多 。 
问 为 什么 不 在 Node 类 型 中 使 用 一 个 Key 类 型 的 数组 来 表示 2- 结 点 、3- 结 点 和 4 结 点 ? 


答 问 得 好 。 这 正 是 我 
键 。 因 为 2-3 树 中 的 结 点 较 少 ， 


门 在 B- 树 〈 请 见 第 6 章 ) 的 实现 


中 使 用 的 方案 ， 


数组 所 带 来 的 额外 


销 太 高 了 。 


[ 色 左 链接 的 存在 能 


它 的 每 个 结 点 中 可 以 保存 更 多 的 


问 在 分 解 一 个 4- 结 点 时 ， 我 们 有 时 会 在 rotateRightQ 中 将 右 结 点 的 颜色 设 为 RED ( 红 ) 然后 立即 在 
f1ipColors() 中 将 它 的 颜色 变 为 BLACK ( 黑 ) 。 这 不 是 浪费 时 间 吗 ? 
答 ”是 的 ， 有 了 时 我 们 还 会 不 必要 地 反复 改变 中 结 点 的 颜色 。 从 整体 来 看 ， 多 余 的 几 次 颜色 变换 和 将 所 有 
方法 的 运行 时 间 的 增长 数量 级 从 线性 级 别提 升 到 对 数 级 别 不 是 一 个 级 别 的。 当然 ， 在 有 性 能 要 求 的 
应 用 中 ， 你 可 以 将 rotateRight() 和 fl1lipColorsQ 〇 的 代码 在 所 需要 的 地 方 展开 来 消除 那些 额外 的 


理解 和 维护 。 


开销 。 我 们 在 删除 中 也 会 使 


] 这 两 个 方法 。 在 能 够 保证 树 的 完美 平衡 的 前 提 下 ， 它们 更 加 容易 使 用 、 
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3.3.10 


3.3.11 


3.3.12 


3.3.13 


3.3.14 


3.3.15 


3.3.16 


3.3.17 


3.3.18 
3.3.19 


将 键 E ASYQUTION 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 


将 键 YLPMXHCRAE 本 棵 空 2-3 树 并 画 出 结果 。 


使 用 什么 顺序 插入 键 S E A C H xX M 能 够 得 到 一 棵 高 度 为 1 的 2-3 树 ? 


证 明 含有 NN 个 键 的 2-3 树 的 高 度 a te i 


计 血 


一 定 只 能 使 


Hu、 


只 
Gi 

点 组 成 ) 和 ~LlgNj( 树 完全 由 2- 结 点 组 成 ) 之 间 。 ; ; \ 
右 图 显示 了 N=1 到 6 之 间 大 小 为 N 的 所 有 不 同 的 2-3 树 (无 先后 次 序 ) 。 | : 
请 画 出 NE7、8、9 和 10 的 大 小 为 N 的 所 有 不 同 的 2-3 树 。 
j V 个 随机 键 构造 练习 3.3.5 中 每 棵 2-3 树 的 概率 。 
以 图 3.3.9 为 例 为 图 3.3.8 中 的 其 他 5 种 情况 画 出 相应 的 示意 图 。 3 
画 出 使 用 三 个 2- 


全 


直 点 和 红 链 接 一 起 表示 一 个 4- 结 点 的 所 有 可 能 方法 〈 不 
用 红色 左 链接 ) 


树 ( 粗 的 链接 为 红色 ) ? > 


下 图 中 哪些 是 红 晤 


() 


含有 键 E A S Y Q UT I 0 N 的 结 点 按 顺 序 插入 一 棵 空 红 黑 树 并 夯 出 结果 。 
pth 吉 点 按 顺 序 插入 一 棵 空 红 黑 树 并 夯 出 结果 。 


(ii) (iv) 


a a a 


在 我 们 的 标准 索引 测试 用 例 中 搬入 键 P 并 画 出 搬入 的 过 程 中 每 次 变换 ( 颜色 转换 或 是 旋转 ) 后 


的 红 
真 假 


红 黑 
的 图 
在 键 
上 面 
向 右 


红色 ) 


插入 
结 点 
随机 


黑 树 。 
判断 : 如 果 


树 的 过 程 
网 ) 。 
按照 降序 捐 


你 按照 升序 将 键 顺序 插入 一 棵 红 黑 树 中 ， 树 的 高 度 是 单调 递增 的 。 


入 红 黑 树 的 情况 下 重新 回答 


两 道 练习 。 
图 所 示 的 红 


时 的 查找 路 
即 可 J oo 


黑 树 〈 黑色 加 粗 部 分 的 链接 为 
中 插入 n 并 画 出 结果 ( 图 中 只 显示 了 


径 ， 你 


生成 两 棵 均 含 有 16 个 结 点 的 红 黑 树 。 画 
出 它们 (手绘 或 者 代码 绘制 均 可 ) 并 将 它们 和 


使 用 同一 组 键 构造 的 ( 


进行 


比较 。 


用 字母 A 到 按 顺 序 构造 一 棵 红 黑 树 并 画 出 结果 ， 然 后 大 致 说 明 在 按照 升序 插入 键 来 构造 一 棵 
FP 发 生 了 什么 (可 以 参考 正文 中 


的 解答 中 只 需 包含 这 些 


非 平 衡 的 ) 二 又 查找 树 


对 于 2 到 10 之 间 的 W， 画 出 所 有 大 小 为 Y 的 不 同 红 黑 树 ( 请 参考 练习 3.3.5 ) 。 
每 个 结 点 只 需要 1 位 来 保存 结 点 的 颜色 即 可 表示 2- 结 点 、3- 结 点 和 4- 结 点 。 使 用 二 又 树 ， 我 们 
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在 每 个 结 点 需要 几 位 信息 才能 表示 5- 结 点 、6- 结 点 、7- 结 点 和 8- 结 点 ? 
3.3.20 ”计算 一 棵 大 小 为 Y 且 完美 平衡 的 二 又 查找 树 的 内 部 路 径 长 度 ， 其 中 N 为 2 的 索 减 
3.3.21 基于 你 为 练习 3.2.10 给 出 的 答案 编写 一 个 测试 用 例 TestRB.java。 
3.3.22 ” 找 出 一 组 键 的 序列 使 得 用 它 顺序 构造 的 二 又 查找 树 比 用 它 顺 序 构造 的 红 黑 树 的 高 度 更 低 ， 或 者 

证 明 这 样 的 序列 不 存在 。 450 


— 


o 


图 提高 是 


3.3.23 没有 平衡 性 限制 的 2-3 树 。 使 用 2-3 树 (不 一 定 平衡 ) 作为 数据 结构 实现 符号 表 的 基本 API。 树 
中 的 3- 结 点 中 的 红 链 接 可 以 左 斜 也 可 以 右 斜 。 树 底部 的 3- 结 点 和 新 结 点 通过 黑色 链接 相连 。 实 
验 并 估计 随机 构造 的 这 样 一 棵 大 小 为 X 的 树 的 平均 路 径 长 度 。 
3.3.24 ” 红 黑 树 的 最 坏 情 况 。 找 出 如 何 构造 一 棵 大 小 为 N 的 最 差 红 黑 树 ， 其 中 从 根 结 点 到 几乎 所 有 空 链 
接 的 路 径 长 度 均 为 21gN。 
3.3.25 自 顶 向 下 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 实现 正文 所 述 的 插入 算法 ， 其 中 在 沿 查找 路 径 向 下 的 过 程 中 分 解 4- 结 点 并 进行 颜 
色 转 换 ， 在 回溯 向 上 的 过 程 中 将 4- 结 点 配 平 。 
3.3.26 自 顶 向 下 一 遍 完 成 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 不 使 用 递归 。 在 沿 查找 路 径 向 下 的 过 程 
中 分 解 并 平衡 4- 结 点 ( 以 及 3- 结 点 ) ， 最 后 在 树 底 插入 新 键 即 可 。 
3.3.27 ”允许 红色 右 链接 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 人 允许 红色 右 链接 的 存在 。 
3.3.28 自 底 向 上 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作 为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
晶 红 黑 链接 并 用 和 算法 3.4 相同 的 递归 方式 实现 自 底 向 上 的 插入 。 你 的 插入 方法 应 该 只 需要 分 解 
查找 路 径 底 部 的 4- 结 点 ( 如 果 有 的 话 ) 。 
3.3.29 最 优 存 储 。 修 改 RedB1ackBST 的 实现 ,用 下 面 的 技巧 实现 无 需 为 结 点 颜色 的 存储 使 用 额外 的 空间 : 
要 将 结 点 标记 为 红色 ， 只 需 交 换 它 的 左右 链接 。 要 检测 一 个 结 点 是 否 是 红色 ， 检 测 它 的 左 子 结 
点 是 否 大 于 它 的 右 子 结 点 。 你 需要 修改 一 些 比较 语句 来 适应 链接 的 交换 。 这 个 技巧 将 变量 的 比 
较 变 成 了 键 的 比较 ， 显 然 成 本 会 更 高 ， 但 它 说 明 在 需要 的 情况 下 这 个 变量 是 可 以 被 删 掉 的 。 
3.3.30 缓存 。 修 改 RedB1ackBST 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get0) 或 “|451 
put0) 在 再 次 访问 同一 个 键 时 就 只 需 要 常数 时 间 了 (请 参考 练习 3.1.25 ) 。 
3.3.31 树 的 绘制 。 为 RedBlackBST 添加 一 个 draw0) 方法 ， 像 正文 一 样 绘制 出 红 黑 树 。 
3.3.32 ”AVL 树 。AVL 树 是 一 种 二 又 查 找 树 ， 其 中 任意 结 点 的 两 棵 子 树 的 高 度 最 多 相差 1 ( 最 早 的 平衡 
树 算法 就 是 基于 使 用 旋转 保持 AVL 树 中 子 树 高 度 的 平衡 ) 。 证 明 将 其 中 由 高 度 为 偶数 的 结 点 指 
向 高 度 为 奇数 的 结 点 的 链接 设 为 红色 就 可 以 得 到 一 棵 (完美 平衡 的 ) 2-3-4 树 ， 其 中 红色 链接 可 
以 是 右 链接 。 附 加 题 : 使 用 AVL 树 作 为 数据 结构 实现 符号 表 的 API。 一 种 方法 是 在 每 个 结 点 中 
保存 它 的 高 度 并 在 递归 调用 后 使 用 旋转 来 根据 需要 调整 这 个 高 度 ; 另 一 种 方法 是 在 树 的 表示 中 
使 用 红 黑 链接 并 使 用 类 似 练习 3.3.39 和 练习 3.3.40 的 moveRedLeft() 和 moveRedRight() 的 
方法 。 
3.3.33 验证。 为 RedBlackBST 实现 一 个 is230) 方法 来 检查 是 否 存在 同时 和 两 条 红 链 接 相连 的 结 点 和 
红色 右 链 接 ， 以 及 一 个 isBalanced0 方法 来 检查 从 根 结 点 到 所 有 空 链接 的 路 径 上 的 黑 链接 的 数 
量 是 否 相 同 。 将 这 两 个 方法 和 练习 3.2.32 的 isBST() 方法 结合 起 来 实现 一 个 isRedB1ackBSTO) 
来 检查 一 棵 树 是 否 是 红 黑 树 。 


< 
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3.3.34 


3.3.35 


3.3.36 


3.3.37 


3.3.38 


3.3.39 


3.3.40 


所 有 的 2-3 树 。 编 写 一 段 代 码 来 生成 高 度 为 2、3 和 4 的 所 有 结构 不 同 的 2-3 树 ， 分 别 共 有 2、7 


和 112 种 (提示: 使 用 符号 表 ) 。 
2-3 树 。 编 写 一 段 程序 TwoThreeSTjava， 使 用 两 种 结 点 类 型 来 直接 表示 和 实现 2-3 查找 树 。 
2-3-4-5-6-7-8 树 。 说 明 平 衡 的 2-3-4-5-6-7-8 树 中 的 查找 和 插入 算法 。 


无 记忆 性 。 请 证 明 红 黑 树 不 是 没有 记忆 的 。 例 如 ， 如 果 你 向 树 中 插入 一 个 小 于 所 有 键 的 新 键 ， 


然后 立即 删除 树 的 最 小 键 ， 你 可 能 得 到 一 棵 不 同 的 树 。 


旋转 的 基础 定理 。 请 证 明 ， 使 用 一 系列 左旋 转 或 者 右 旋转 可 以 将 一 棵 二 又 查找 树 转化 为 上 


组 键 生成 的 其 他 任意 一 棵 二 又 查找 树 。 


同 


删除 最 小 键 。 实 现 红 黑 树 的 deleteMin0) 方法 ， 在 沿 着 树 的 最 左 路 径 向 下 的 过 程 中 实现 正文 所 


述 的 变换 ， 保 证 当前 结 点 不 是 2- 结 点 。 
解答 : 

private Node moveRedLeft(Node h) 

{ // 假设 结 点 hh 为 红色 , h.1left 和 h.left.1eft 都 是 黑色 
// 将 h.1eft 或 者 h.1eft 的 子 结 点 之 一 交 红 
flipColors (Ch); 
if (isRed(h.right.left)) 

二 
h.right = rotateRight(h.right); 
h = rotateLeft(h); 

} 


return h; 


public void deleteMin() 


二 
if (!isRed(root.left) && !isRed(root.right)) 
root ,color = RED; 
root = deleteMin(root); 
if (!isEmpty()) root.color = BLACK; 
} 


private Node deleteMin(Node h) 


if (Ch.left == nul1l1) 
return null; 

if (!isRed(h.left) && !isRed(h.left.1left)) 
h = moveRedLeft(h); 

h.left = deleteMin(h.1left); 

return balance(h); 


} 


if (isRed(h.right)) h = rotateLeft(h); 


其 中 的 balanceQ 方法 由 下 一 行 代码 和 算法 3.4 的 递归 putQ 〇 方法 中 的 最 后 5 行 代码 组 成 : 


这 里 的 flipColors() 方法 将 会 补 全 三 条 链接 的 颜色 ， 而 不 是 正文 中 实现 插入 操作 时 实现 的 
flipColors 0) 方法。 对 于 删除 , 我 们 会 将 父 结 点 设 为 BLACK( 黑 ) 而 将 两 个 子 结 点 设 为 RED( 红 )。 


里 用 到 的 变换 和 上 一 道 练习 中 的 稍 有 不 同 。 
解答 : 
private Node moveRedRight(Node h) 
人 // 假设 结 点 hh 为 红色 , h.right 和 h.right.1left 都 是 黑色 ， 
// 将 h.right 或 者 h.right 的 子 结 点 之 一 变 红 
flipColors (Ch) 


删除 最 大 键 。 实 现 红 黑 树 的 deleteMax( 方法 。 需 要 注意 的 是 因为 红 链 接 都 是 左 链接 ， 所 以 这 
上 


if (!isRed(h.left.left)) 
h = rotateRight(h); 
return h; 


public void deleteMax() 


{ 


} 


if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 

root = deleteMax(root); 

if (!isEmpty()) root.color = BLACK; 


private Node deleteMax(Node h) 


{ 


} 


3.3.41 删除 操作 。 将 上 两 题 
解答 : 


if (isRed(h.1left)) 
h = rotateRight(h); 
if (Ch.right == nul11) 
return null; 
if (!isRed(h.right) && !isRed(h.right.left)) 
h = moveRedRight(h); 
h.right = deleteMax(h.right); 
return balance(h); 


public void delete(Key key) 


{ 


} 


if (!isRed(root.left) && !isRed(root.right)) 
root.color = RED; 

root = delete(root, key); 

if (!isEmpty()) root.color = BLACK; 


private Node delete(Node h, Key key) 


‘ 


if (key.compareTo(h.key) < 0) 


{ 
if (!isRed(h.left) && !isRed(h.left.1left)) 
h = moveRedLeft(h); 
h.left = delete(h.left, key); 
} 
else 
{ 
if (isRed(h.1left)) 
h = rotateRight(h); 
if (key.compareTo(h.key) == 0 && (h.right == null1)) 
return null; 
if (!isRed(h.right) && !isRed(h.right.left)) 
h = moveRedRight(h); 
if (key.compareTo(h.key) == 0) 
{ 
h.val = get(h.right, min(h.right).key); 
h.key = min(h.right) .key; 
h.right = deleteMin(h.right); 
} 
else h.right = delete(h.right, key); 
} 


return balance(h); 
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Pp 的 方法 和 二 又 查找 树 的 delete() 方法 结合 起 来 , 实现 红 黑 树 的 删除 操作 。 


455 


Sm 1 人 日 
图 实验 是 


3.3.42 


3.3.43 


3.3.44 


3.3.45 


3.3.46 


20 一 


统计 红色 结 点 。 编 写 一 段 程序 ， 统计 给 定 的 红 黑 树 中 红色 结 点 所 占 的 比例 。 对 于 N:10' 、10 和 
10"， 用 你 的 程序 统计 至 少 100 棵 随机 构造 的 大 小 为 N 的 红 黑 树 并 得 出 一 个 猜想 。 

成 本 图 。 改造 RedB1ackBST 的 实现 来 绘制 本 节 中 能 够 显示 计算 中 每 次 put( 操作 的 成 本 的 图 (请 
参考 练习 3.1.38 ) 。 

平均 查找 用 时 。 用 实验 研究 和 计算 在 一 棵 由 X 个 随机 结 点 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 N 再 加 1) 的 平均 差 和 标准 差 ， 对 于 1 到 10 000 之 间 的 每 个 
N 至 少 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.3.30 相似 的 Tufte 图 ， 并 画 上 函数 lgN-0.5 的 曲线 。 
统计 旋转 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘 制 出 在 构造 红 黑 树 的 过 程 中 旋转 和 分 解 
结 点 的 次 数 并 讨论 结果 。 
红 黑 树 的 高 度 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘制 出 所 有 红 黑 树 的 高 度 并 讨论 结果 。 


A 
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I 品 
100 操作 10 000 


图 3.3.30 ”随机 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.4” 散 列表 


如 果 所 有 的 键 都 是 小 整数 ， 我 们 可 以 用 一 个 数组 来 实现 无 序 的 符号 表 ， 将 键 作 为 数组 的 索引 而 
数组 中 键 i 处 储存 的 就 是 它 对 应 的 值 。 这 样 我 们 就 可 以 快速 访问 任意 键 的 值 。 在 本 节 中 我 们 将 要 学 
习 散 列表 。 它 是 这 种 简易 方法 的 扩展 并 能 够 处 理 更 加 复杂 的 类 型 的 键 。 我 们 需要 用 算术 操作 将 键 转 
化 为 数组 的 索引 来 访问 数组 中 的 键 值 对 。 

使 用 散 列 的 查找 算法 分 为 两 步 。 第 一 步 是 用 散 列 函数 将 被 查找 的 键 转化 为 数组 的 一 个 索引 。 理 
想 情 况 下 ， 不 同 的 键 都 能 转化 为 不 同 的 索引 值 。 当 然 ， 这 只 是 理想 情况 ， 所 以 我 们 需要 面 对 两 个 或 
者 多 个 键 都 会 散 列 到 相同 的 索引 值 的 情况 。 因 此 ， 散 列 查找 的 第 二 步 就 是 一 个 处 理 碰撞 冲突 的 过 程 ， 
如 图 3.4.1 所 示 。 在 描述 了 多 种 散 列 函数 的 计算 后 ， 我 们 会 学 习 
两 种 解决 碰撞 的 方法 : 拉链 法 和 线性 探测 法 。 


散 列表 是 算法 在 时 间 和 空间 上 作出 权衡 的 经 典 例 子 。 如 果 没 键 散 列 值 6 fe 
有 内 存 限制 ， 我 们 可 以 直接 将 刍 作 为 (可 能 是 一 个 超大 的 ) 数组 的 。 a 2 
索引 ， 那 么 所 有 查找 操作 只 需要 访问 内 存 一 次 即 可 完成 。 但 这 种 理 。 0 3 
想 情况 不 会 经 常 出 现 , 因为 当 键 很 多 时 需要 的 内 存 太 大 。 另 一 方面 ， dd 2 
如 果 没 有 时 间 限 制 ， 我 们 可 以 使 用 无 序数 组 并 进行 顺序 查找 ， 这 样 2 [Pa 
就 只 需要 很 少 的 内 存 。 而 散 列表 则 使 用 了 适度 的 空间 和 时 间 并 在 这 0 
两 个 极端 之 间 找 到 了 一 种 平衡 。 事实 上 ， 我 们 不 必 重 写 代 码 ， 只 需 碰撞 3 |c 


要 调整 散 列 算法 的 参数 就 可 以 在 空间 和 时 间 之 间作 出 取舍 。 我 们 会 
使 用 概率 论 的 经 典 结论 来 帮助 我 们 选择 适当 的 参数 。 
概率 论 是 数学 分 析 的 重大 成 果 。 虽 然 它 不 在 本 书 的 讨论 范围 
之 内 ， 但 我 们 将 要 学 习 的 散 列 算法 利用 了 这 些 知 识 ， 这 些 算 法 虽然 M_1 
简单 但 应 用 广泛 。 使 用 散 列 表 ， 你 可 以 实现 在 一 般 应 用 中 拥有 ( 均 
挫 后 ) 常数 级 别 的 查找 和 插入 操作 的 符号 表 。 这 使 得 它 在 很 多 情况 图 3.4.1 ” 散 列表 的 核心 问题 ”|457 
下 成 为 实现 简单 符号 表 的 最 佳 选择 。 458 


3.4.1” 散 列 函 数 

我 们 面 对 的 第 一 个 问题 就 是 散 列 函数 的 计算 ， 这 个 过 程 会 将 键 转化 为 数组 的 索引 。 如 果 我 们 有 
一 个 能 够 保存 MM 个 键 值 对 的 数组 ,那么 我 们 就 需要 一 个 能 够 将 任意 键 转化 为 该 数组 范围 内 的 索引 ( [0， 
M-1] 范围 内 的 整数 ) 的 散 列 函 数 。 我 们 要 找 的 散 列 函 数 应 该 易于 计算 并 且 能 够 均匀 分 布 所 有 的 键 ， 
即 对 于 任意 键 ，0 到 M-1 之 间 的 每 个 整数 都 有 相等 的 可 能 性 与 之 对 应 ( 与 键 无 关 ) 。 这 个 要 求 似 乎 
有 些 难 以 理解 。 那 么 要 理解 散 列 ， 就 首先 要 仔细 思考 如 何 去 实 现 这 样 一 个 函数 。 

散 列 函 数 和 键 的 类 型 有 关 。 严 格 地 说 ， 对 于 每 种 类 型 的 键 都 我 们 都 需要 一 个 与 之 对 应 的 散 列 函 
数 。 如 果 键 是 一 个 数 ， 比 如 社会 保险 号 ， 我 们 就 可 以 直接 使 用 这 个 数 ; 如果 键 是 一 个 字符 串 ， 比 如 
一 个 人 的 名 字 ， 我 们 就 需要 将 这 个 字符 串 转化 为 一 个 数 ; 如 果 键 含有 多 个 部 分 ， 比 如 邮件 地 址 ， 我 
们 需要 用 革 种 方法 将 这 些 部 分 结合 起 来 。 对 于 许多 常见 类 型 的 键 ， 我 们 可 以 利用 Java 提供 的 默认 实 
现 。 我 们 会 简略 讨论 多 种 数据 类 型 的 散 列 函数 。 你 应 该 看 看 它们 是 如 何 实现 的 ， 因 为 你 也 需要 为 自 
定义 的 类 型 实现 散 列 函数 。 
3.4.1.1 典型 的 例子 

假设 在 我 们 的 应 用 中 ， 键 是 美国 的 社会 保险 号 。 一 个 社会 保险 号 含有 9 位 数字 并 被 分 为 三 个 间 
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分 ,例如 123-45-6789。 第 一 组 数字 表示 该 号 码 签发 的 地 区 ( 例如, 第 一 ” 键 散 列 值 ” 散 列 值 


组 号 码 为 035 的 社会 保险 号 来 自 罗 得 岛 州 ，214 则 来 自 马里 兰州 ) ， 另 两 


组 数字 表示 个 人 身份 。 社 会 保险 号 共有 10 亿 (10 ) 


(M=100)  (M=97) 


J ee 212 12 18 
个 ， 但 假设 我 们 的 应 618 18 36 


用 程序 只 需要 处 理 几 百 个 ,我 们 可 以 使 用 一 个 大 小 M=1000 的 散 列 表 。 散 302 , 


列 函 数 的 一 种 实现 方法 是 使 用 键 (社会 保险 号 ) 中 的 三 个 数字 。 用 第 三 ?20 4 _ 


组 中 的 三 个 数字 似乎 比 用 第 一 组 中 的 三 个 数字 更 好 ( 因为 我 们 的 客户 不 704 4 25 
大 可 能 完全 平均 地 分 布 在 各 个 地 区 ) ， 但 下 面 会 讲 到 ， 更 好 的 方法 是 用 612 12 3 


所 有 9 个 数字 得 到 一 个 整数 ， 然 后 再 考虑 整数 的 散 列 函数 。 


3.4.1.2” 正 整数 
将 整数 散 列 最 常用 方法 是 除 留 余数 法 。 我 们 选择 


对 于 任意 正 整 数 k， 计 算 k 除 以 MM 的 余数 。 这 个 函数 的 计算 非常 容易 ( 在 


Java 中 为 k%M ) 并 能 够 有 效 地 将 键 散布 在 0 到 M-1 


606 6 24 
772 72 93 
510 10 25 
大 小 为 素数 MM 的 数组 ， 423 23 35 
650 50 68 
317 17 26 
的 范围 内 。 如 果 M 不 907 7 34 


是 素数 ， 我 们 可 能 无 法 利用 键 中 包含 的 所 有 信息 ， 这 可 能 导致 我 们 无 法 均 ”307 4 


匀 地 散 列 散 列 值 。 例 如 ， 如 果 键 是 十 进 制 数 而 MM 为 


10"， 那 么 我 们 只 能 利 7 14 Se 


用 键 的 后 大 位 ， 这 可 能 会 产生 一 些 问题 。 举 个 简单 的 例子 ， 假 设 键 为 电话 857 57 81 
号 码 的 区 号 且 M=100。 由 于 历史 原因 ， 美 国 的 大 部 分 区 号 中 间 位 都 是 0 或 81 1 2 
者 1， 因 此 这 种 方法 会 将 大 量 的 键 散 列 为 小 于 20 的 索引 ， 但 如 果 使 用 素数 43 13 2 
97， 散 列 值 的 分 布 显然 会 更 好 ( 一 个 离 100 更 远 的 素数 会 更 好 ) ， 如 右 侧 。 701 1 22 
所 示 。 与 之 类 似 ， 互 联网 中 使 用 的 卫 地 址 也 不 是 随机 的 ， 所 以 如 果 我 们 想 ”418 也 30 


3.4.1.3” 浮 点 数 
如 果 键 是 0 到 1 之 间 的 实数 , 我 们 可 以 将 它 乘 以 


j 除 留 余数 法 将 其 散 列 就 需要 用 素数 ( 特别 地 , 这 不 是 2 的 竹 ) 大 小 的 数组 。 


除 留 余数 法 
MM 并 四 舍 五 人 得 到 一 个 0 至 M-1 之 间 的 索引 值 。 


尽管 这 个 方法 很 容易 理解 ， 但 它 是 有 缺陷 的 ， 因 为 这 种 情况 下 键 的 高 位 起 的 作用 更 大 ， 最 低位 对 散 
列 的 结果 没有 影响 。 修 正 这 个 问题 的 办 法 是 将 键 表示 为 二 进 制 数 然后 再 使 用 除 留 余数 法 〈Java 就 是 


这 人 么 做 的 ) 。 
3.4.1.4 ”字符 串 

除 留 余数 法 也 可 以 处 理 较 长 的 
键 ， 例 如 字符 串 ， 我 们 只 需 将 它们 当 pa 


as 三 证 0 
int i = 0; i < s.length(); i++) 


作 大 整数 即 可 。 例 如 ， 右 侧 的 代码 就 hash = CR * hash + s.charAt(i)) % Mi 


能 够 用 除 留 余数 法 计算 String S 的 
散 列 值 : 


散 列 字符 串 键 


Java 的 charAt() 函数 能 够 返回 一 个 char 值 ， 即 一 个 非 负 16 位 整数 。 如 果 R 比 任何 字符 的 值 都 


大 ， 这 种 计算 相当 于 将 字符 串 当 作 一 个 N 位 的 R 进 和 


吊 值 ， 将 它 除 以 M 并 取 余 。 一 种 叫 Horer 方法 的 


经 典 算法 用 N 次 乘法 、 加 法 和 取 余 来 计算 一 个 字符 串 的 散 列 值 。 只 要 R 足够 小 ,不 造成 溢出 ， 那 么 结 
果 就 能 够 如 我 们 所 愿 ， 落 在 0 至 M-1 之 内 。 使 用 一 个 较 小 的 素数 ， 例 如 31， 可 以 保证 字符 串 中 的 所 


有 字符 都 能 发 挥 作用 。Java 的 String 的 默认 实现 使 用 了 一 个 类 似 的 方法 。 


3.4.1.5 “组合 键 
如 果 键 的 类 型 含有 多 个 整 型 变量 ， 我 们 可 以 


和 String 类 型 一 样 将 它们 混合 起 来 。 例 如 ， 


假设 被 查找 的 键 的 类 型 是 Date， 其 中 含有 几 个 整 型 的 域 : day ( 两 个 数字 表示 的 日 ) ，month 


( 两 个 数字 表示 的 月 ) 和 year (4 个 数字 表示 的 年 


) 。 我 们 可 以 这 样 计算 它 的 散 列 值 : 
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int hash = (((day * R + month) % M ) * R + year) % Mi 

只 要 R 足够 小 不 造成 溢出 ， 也 可 以 表 3.4.1 所 有 例子 中 的 键 的 散 列 值 
得 到 一 个 0 至 M-1 之 间 的 散 列 值 。 在 
这 种 情况 下 我 们 可 以 通过 选择 一 个 适当 
的 M， 比 如 31， 来 省 去 括号 内 的 %M 计 
算 。 和 字符 串 的 散 列 算法 一 样 ， 这 个 方 
法 也 能 处 理 有 任意 多 整 型 变量 的 类 型 。 
3.4.1.6 ”Java 的 约定 

每 种 数据 类 型 都 需要 相应 的 散 列 函数 ， 于 是 Java 令 所 有 数据 类 型 都 继承 了 一 个 能 够 返回 一 个 
32 比特 整数 的 hashCode 0) 方法 。 每 一 种 数据 类 型 的 hashCode0) 方法 都 必须 和 equals 〇 方法 一 
致 。 也 就 是 说 ， 如 果 a.equals(b) 返回 true, 那么 a.hashCode0) 的 返回 值 必然 和 b.hashCode0) 
的 返回 值 相同 。 相 反 ， 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 不 同 ， 那 么 我 们 就 知道 这 两 个 
对 象 是 不 同 的 。 但 如 果 两 个 对 象 的 hashCode0) 方法 的 返回 值 相 同 ， 这 两 个 对 象 也 有 可 能 不 同 ， 
我 们 还 需要 用 equals 0) 方法 进行 判断 。 请 注意 ， 这 说 明 如 果 你 要 为 自 定 义 的 数据 类 型 定义 散 列 函 
数 ， 你 需要 同时 重 写 hashCode() 和 equals() 两 个 方法 。 上 默认 散 列 函数 会 返回 对 象 的 内 存 地 址 ， 
但 这 只 适用 于 很 少 的 情况 。Java 为 很 多 常用 的 数据 类 型 重 写 了 hashCode() 方法 (包括 String、 
Integer、Double、File 和 URL)。 
3.4.1.7 将 hashCode0) 的 返回 值 转化 为 一 个 数组 索引 

因为 我 们 需要 的 是 数组 的 索引 而 不 是 一 个 32 位 的 整数 ， 我 们 在 实现 中 会 将 默认 的 hashCodeO) 
方法 和 除 留 余数 法 结合 起 来 产生 一 个 0 到 M-1 的 整数 ,方法 如 下 : 


private int hash(Key x) 
{ return (x.hashCode() & Ox7fffffff) % M; } 


这 段 代码 会 将 符号 位 屏蔽 (将 一 个 32 位 整数 变 为 一 个 31 位 非 负 整数 ) ， 然 后 用 除 留 余数 法 计 
算 它 除 以 M 的 余数 。 在 使 用 这 样 的 代码 时 我 们 一 般 会 将 数组 的 大 小 M 取 为 素数 以 充分 利用 原 散 列 值 
的 所 有 位 。 注 意 : 为 了 避免 混乱 ， 我 们 在 例子 中 不 会 使 用 这 种 计算 方法 而 是 使 用 表 3.4.1 所 示 的 散 
列 值 作 为 替代 。 
3.4.1.8 自 定 义 的 hashCode() 方法 public class Transaction 

散 列 表 的 用 例 希 望 hashCode0) 方法 { 
能 够 将 键 平均 地 散布 为 所 有 可 能 的 32 位 


键 3 E A R CH xX M P L 
散 列 值 M=5) 2 0 0 4 4 4 2 4 3 3 
散 列 值 M=16) 6 10 4 14 5 4 15 1 14 6 


private final String who; 


整数 。 也 就 是 说 ， 对 于 任意 对 象 x， 你 可 private final Date when; 

以 调用 x.hashCodeQO 并 认为 有 均等 的 机 private final double amount; 

会 得 到 22 个 不 同 整数 中 的 任意 一 个 32 位 Ci 

整 数值 。 Java 中 的 String、Integer、 int hash = 17; 

oooone Fe 用 bl 对象 的 hashcoateo hhh ee 
方法 都 能 实现 这 一 点 。 而 对 于 自己 定义 的 hash = 31 * hash 

数据 类 型 ， 你 必须 试 着 自己 实现 这 一 点 。 + ((Double) amount).hashCodeQO; 


return hash ; 


3.4.1.5 节 中 的 Date 例子 展示 了 一 种 可 行 的 } 

方案 : 用 实例 变量 的 整数 值 和 除 留 余 数 法 得 区 

到 散 列 值 。 在 Java 中 ， 所 有 的 数据 类 型 都 

继承 了 hashCode(0) 方法 ， 因 此 还 有 一 个 更 自 定义 类 型 中 hashCode() 方 法 的 实现 
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简单 的 做 法 : 将 对 象 中 的 每 个 变量 的 hashCode() 返回 值 转化 为 32 位 整数 并 计算 得 到 散 列 值 ， 如 
Transaction 类 所 示 。 
对 于 原始 类 型 的 对 象 ， 可 以 将 其 转化 为 对 应 的 数据 类 型 然后 再 调用 hashCode() 方法 。 和 以 前 
一 样 ， 系 数 的 具体 值 ( 这 里 是 31 ) 并 不 是 很 重要 。 
3.4.1.9 软 缓 存 
如 果 散 列 值 的 计算 很 耗 时 ， 那 么 我 们 或 许可 以 将 每 个 键 的 散 列 值 缓 存 起 来 ， 即 在 每 个 键 中 使 用 
一 个 hash 变量 来 保存 它 的 hashCode() 的 返回 值 ( 请 见 练习 3.4.25 ) 。 第 一 次 调用 hashCodeQ) 方 
法 时 ,我 们 需要 计算 对 象 的 散 列 值 , 但 之 后 对 hashCode() 方法 的 调用 会 直接 返回 hash 变量 的 值 。 
Java 的 String 对 象 的 hashCode() 方法 就 使 用 了 这 种 方法 来 减少 计算 量 。 
总 的 来 说 ， 要 为 一 个 数据 类 型 实现 一 个 优秀 的 散 列 方法 需要 满足 三 个 条 件 : 
口 一 致 性 一 一 等 价 的 键 必然 产生 相等 的 散 列 值 ; 
口 高 效 性 一 一 计算 简便 ，; 
口 均匀 性 匀 地 散 列 所 有 的 键 。 
设计 同时 满足 这 三 个 条 件 的 散 列 函数 是 专家 们 的 事 。 有 了 各 种 内 置 函 数 ，Java 程序 员 在 使 用 散 
列 时 只 需要 调用 hashCode(0) 方法 即 可 ， 我 们 没有 理由 不 信任 它们 。 
日 是 ， 在 有 性 能 要 求 时 应 该 谨慎 使 用 散 列 ， 因 为 精 糕 的 散 列 函数 经 常 是 性 能 问题 的 罪魁 祸首 : 
程序 可 以 工作 但 比 预想 的 慢 得 多 。 保 证 均匀 性 的 最 好 办 法 也 许 就 是 保证 键 的 每 一 位 都 在 散 列 值 的 计 
i | 算 中 起 到 了 相同 的 作用 ; 实现 散 列 函数 最 常见 的 错误 也 许 就 是 忽略 了 键 的 高 位 。 无 论 散 列 函数 的 实 
现 是 什么 ， 当 性 能 很 重要 时 你 应 该 测试 所 使 用 的 所 有 散 列 函数 。 计 算 散 列 函数 和 比较 两 个 键 ， 哪 个 
耗 时 更 多 ? 你 的 散 列 函 数 能 够 将 一 组 键 均 匀 地 散布 在 0 到 M-1 之 间 吗 ? 用 简单 的 实现 测试 这 些 问 
题 能 够 预防 未 来 的 悲剧 。 例 如 ， 图 3.4.2 就 显示 出 ， 对 于 《 双城记》 我们 的 hash0 方法 在 使 用 了 
Java 的 String 类 型 的 hashCode() 方法 后 能 够 得 到 一 个 合理 的 分 布 。 


110 =10679/97 
| 中 | | | 由 
RR 
0 键 值 96 


图 3.4.2 ” 《双城记 》 中 每 个 单词 的 散 列 值 的 出 现 频率 (10 679 个 键 ， 即 单词 ，M=97)”( 另 见 彩 插 ) 
这 些 讨论 的 背后 是 我 们 在 使 用 散 列 时 作出 的 一 个 重要 假设 。 这 个 假设 是 一 个 我 们 实际 上 无 法 达 
到 的 理想 模型 ， 但 它 是 我 们 实现 散 列 函数 时 的 指导 思想 。 


假设 J( 均匀 散 列 假设 ) 。 我 们 使 用 的 散 列 函数 能 够 均匀 并 独立 地 将 所 有 的 键 散布 于 0 到 W-1 之 间 。 


讨论 。 我 们 在 实现 散 列 函数 时 随意 指定 了 很 多 参数 ， 这 显然 无 法 实现 一 个 能 够 在 数学 意义 上 均 
久 并 独立 地 散布 所 有 键 的 散 列 函数 。 坚 深 的 理论 研究 告诉 我 们 想 要 找到 一 个 计算 简单 但 又 拥有 
一 致 性 和 均匀 性 的 散 列 函 数 是 不 太 可 能 的 。 在 实际 应 用 中 ， 和 使 用 Math.random() 生成 随机 数 
一 样 ， 大 多 数 程序 员 都 会 满足 于 随机 数 生成 器 类 的 散 列 函数 。 很 少 有 人 会 去 检验 独立 性 ， 而 这 
个 性 质 一般 都 不 会 满足 。 
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尽管 验证 这 个 假设 很 困难 ,假设 本 仍然 是 考察 散 列 函 数 的 重要 方式 ,原因 有 两 点 。 首 先 ， 设计 
散 列 函 数 时 尽量 避免 随意 指定 参数 以 防止 大 量 的 碰撞 ， 这 是 我 们 的 重要 目标 ; 其 次 ， 尽 管 我 们 可 能 
无 法 验证 假设 本 身 ， 它 提示 我 们 使 用 数学 分 析 来 预测 散 列 算法 的 性 能 并 在 实验 中 进行 验证 。 463 


3.4.2 ”基于 拉链 法 的 散 列 表 
一 个 散 列 函数 能 够 将 键 转化 为 数组 索引 。 散 列 算法 的 第 二 步 是 碰撞 处 理 ， 也 就 是 处 理 两 个 或 多 
个 键 的 散 列 值 相同 的 情况 。 一 种 直接 的 办 法 是 将 大 小 为 M 的 数组 中 的 每 个 元 素 指向 一 条 链表 ， 链 
表 中 的 每 个 结 点 都 存储 了 散 列 值 为 该 元 素 的 索引 的 键 值 对 。 这 种 方法 被 称 为 拉链 法 ， 因 为 发 生 冲 突 
的 元 素 都 被 存储 在 链表 中 。 这 个 方法 的 基本 思想 就 是 选择 足够 大 的 M， 使 得 所 有 链表 都 尽 可 能 短 以 
保证 高 效 的 查找 。 查 找 分 两 步 : 首先 根据 散 列 值 找到 对 应 的 链表 ， 然 后 沿 着 链表 顺序 查找 相应 的 键 。 
拉链 法 的 一 种 实现 方法 是 使 用 原始 的 链表 数据 类 型 (请 见 练习 3.42) 来 扩展 
SequentialSearchST (算法 3.1 ) 。 男 一 种 更 简单 的 方法 (但 效率 稍 低 ) 是 采用 一 般 性 的 策略 ， 为 
M 个 元 素 分 别 构建 符号 表 来 保存 散 列 到 这 里 的 键 ， 这 样 也 可 以 重用 我 们 之 前 的 代码 。 算 法 3.5 实现 
的 SeparateChainingHashST 使 用 了 一 个 SequentialSearchST 对 象 的 数组 ， 在 put() 和 get() 
的 实现 中 先 计 算 散 列 函 数 来 选 定 被 查找 的 SequantialSearchST 对 象 ， 然 后 使 用 符号 表 的 put() 
和 get() 方法 来 完成 相应 的 任务 。 
因为 我 们 要 用 M 条 链表 键 
保存 NN 个 键 ， 无 论 键 在 各 个 链 S 
表 中 的 分 布 如何 ， 链 表 的 平均 E 
长 度 肯定 是 NM。 例如 ,假设 A 
所 有 的 键 都 落 在 了 第 一 条 链表 R 
上 ， 所 有 链表 的 平均 长 度 仍 然 5 
是 (V+0+0+…+OJJM=MAM。 拉 H 
E 
X 
A 
M 
p 
L 
E 


散 列 值 
2 


首 元 素 独立 的 
|， nu 人 Sequentia 
站 1SearchsT 


链 法 在 实际 情况 中 很 有 用 ， 
为 每 条 链表 确实 都 大 约 含 有 NN/ 
M 个 键 值 对 。 在 一 般 情况 中 ， 

我 们 能 够 由 它 验 证 假设 J 并 且 
可 以 依赖 这 种 高 效 的 查找 和 插 


对 象 
| 7/ 
人 实现 。 


\ 对 LIH-|P 
在 标准 索引 用 例 中 使 用 基 


小 wh 关口 


OW WwW 个 ON Or 人 全 DO 


于 拉链 法 的 散 列 表 如 图 3.4.3 3.4.3 ”标准 索引 用 例 使 用 基于 拉链 法 的 散 列表 464 


所 示 。 
算法 3.5 ”基于 拉链 法 的 散 列 表 


public class SeparateChainingHashST<Key, Value> 
{ 
private int N; // 键 值 对 总 数 
private int M; // 散 列 表 的 大 小 
private SequentialSearchST<Key，Value>[] st; // 存放 链表 对 象 的 数组 


public SeparateChainingHashST() 
{ this(997); } 
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public SeparateChainingHashSTCint M) 
{ // 创建 M 条 链表 
this.M = M; 
st = (SequentialSearchST<Key, Value>[]) new SequentialSearchSTI[M]; 
for (Cint 1 = 0; i < M; i++) 
st[i] = new SequentialSearchSTO; 
} 


private int hash(Key key) 
{ return (key.hashCode() & Ox7fffffff) % M; } 


public Value get(Key key) 
{ return (Value) st[hash(key)].get(key); } 


public void put(Key key, Value val) 
{ st[hash(key)] .put(key, val); 了 


public Iterable<Key> keys() 
// 请 见 练习 3.4.19 


} 

这 上段 简单 的 符号 表 实现 维护 着 一 条 链表 的 数组 ， 用 散 列 函数 来 为 每 个 键 选择 一 条 链表 。 简 单 起 见 ， 
我 们 使 用 了 SequentialSearchST。 在 创建 st[] 时 需要 进行 类 型 转换 ， 因 为 Java 不 允许 泛 型 的 数组 。 
默认 的 构造 函数 会 使 用 997 条 链表 ， 因 此 对 于 较 大 的 符号 表 ， 这 种 实现 比 SequentialSearchST 大 约 
会 快 1000 倍 。 当 你 能 够 预知 所 需要 的 符号 表 的 大 小 时 ， 这 段 短小 精 悍 的 方案 能 够 得 到 不 错 的 性 能 。 一 种 
更 可 靠 的 方案 是 动态 调整 链表 数组 的 大 小 ， 这 样 无 论 在 符号 表 中 有 多 少 键 值 对 都 能 保证 链表 较 短 ( 请 见 
3.4.4 节 及 练习 3.4.18 ) 。 


命题 K。 在 一 张 仿 有 M 条 链表 和 N 个 键 的 的 散 列表 中 ，《 在 假设 了 成 立 的 前 提 下 ) 任意 一 条 链 
中 的 键 的 数量 均 在 N/M 的 常数 因子 范围 内 的 概率 无 限 趋向 于 1。 


简略 的 证 明 。 有 了 假设 J， 这 个 问题 就 变 成 了 一 个 经 典 的 概率 论 问 题 。 在 这 里 我 们 为 有 一 些 概 
率 论 基础 知识 的 读者 给 出 一 个 简要 的 证 明 。 


由 三 项 分 布 可 知 ， 一 条 给 定 的 链表 正好 含有 天 个 键 的 概率 为 : 


广 
= 
之 


(10, 0.12511...) 


I 
上 八 M M 三 而 全 (R10 Ve 10 c=10) 

因为 我 们 实际 上 是 从 个 键 中 取 了 其 中 个 。 这 个 键 被 散 列 到 给 定 的 链表 的 概率 均 为 WJM， 而 剩 
下 的 (ND 个 键 不 被 散 列 到 给 定 的 链表 中 的 概率 均 为 (1-1/M)。 令 c=NAM， 这 个 公式 可 以 写 为 : 


Gl 


—0.125 
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对 于 较 小 的 a ， 经 典 的 泊 松 分 布 可 以 非常 近似 地 表示 它 : 


(10, 0.12572...) DS 


| | | | 
Qe™ 0 10 20 30 


Kk! 泊 松 分 布 (N= 104, M= 103, a=10) 


由 此 可 得 ， 一 条 链表 中 含有 超过 ta 个 键 的 概率 不 会 超过 (Qae/t) 'e“"。 对 于 实际 应 用 来 说 ， 这 
个 数字 非常 小 。 例 如 ， 如 果 平均 链表 长 度 为 10， 那 么 一 个 键 的 散 列 值 落 在 一 条 长 度 超过 20 的 
链表 的 概率 不 超过 ( 10e/2 ) *e "> 0.0084; 如 果 平 均 链表 长 度 为 20， 那 么 一 个 键 的 散 列 值 落 在 
一 条 长 度 超过 40 的 链表 的 概率 不 超过 (20 e/2 ) "ee “= 0.000 001 6。 这 个 结果 并 不 能 保证 每 条 链 
表 都 很 短 ， 但 我 们 可 以 知道 当 w 一 定时 ， 最 长 链表 的 平均 长 度 的 增长 速度 为 logN/loglogN。 466 


这 段 数学 分 析 非 常 有 力 , 但 需要 注意 的 是 它 完 全 依赖 于 假设 J。 如果 散 列 函数 不 是 均匀 和 独立 的 ， 
那么 查找 和 插入 的 成 本 就 可 能 入 成 正比 ， 也 就 是 和 顺序 查找 类 似 。 假 设 了 比 我 们 见 过 的 其 他 和 概 
率 有 关 的 算法 中 相应 的 假设 都 有 效 ， 但 也 更 加 难以 验证 。 在 计算 散 列 值 时 ， 我 们 假设 每 个 键 都 有 均 
等 的 机 会 被 散 列 到 M 个 索引 中 的 任意 一 个 ， 无 论 键 有 多 复杂 。 我 们 没 法 用 实验 来 验证 所 有 可 能 的 
数据 类 型 ， 所 以 我 们 会 进行 更 复杂 的 实验 ， 在 实际 应 用 中 可 能 出 现 的 一 组 键 中 随机 取样 进行 验证 ， 
然后 统计 结果 并 分 析 。 好 消息 是 我 们 在 测试 中 仍然 可 以 使 用 这 个 算法 来 验证 假设 J 和 由 它 得 出 的 数 


学 推论 。 


性 质 L。 在 一 张 含 有 MM 条 链表 和 NN 个 键 的 的 散 列表 中 ， 未 命中 查找 和 插入 操作 所 需 的 比较 次 数 
为 ~N/M。 


例证 。 在 实际 应 用 中 , 散 列 表 算 法 的 高 性 能 并 不 需要 散 列 函数 完全 符合 假设 J 意义 上 的 均匀 性 。 
自 20 世纪 50 年 代 以 来 ,无 数 程 序 员 都 见证 了 命题 K 所 预言 的 性 能 改进 ， 即 使 有 些 散 列 函 数 
不 是 均匀 的 ,命题 也 成 立 。 例 如 ， 图 3.4.4 所 示 的 FrequencyCounter 使 用 的 散 列表 (其 中 的 
hash() 方法 是 基于 Java 的 String 类 型 的 hashCode() 方法 ) 中 的 链表 长 度 和 理论 模型 完全 一 
致 。 这 条 性 质 的 例外 之 一 是 在 许多 情况 下 散 列 函数 未 能 使 用 键 的 所 有 信息 而 造成 的 性 能 低下 。 
除 此 之 外 ， 大 量 经 验 丰 富 的 程序 员 给 出 的 应 用 实例 令 我 们 确信 ， 在 基于 拉链 法 的 散 列表 中 使 用 
大 小 为 M 的 数组 能 够 将 查找 和 插入 操作 的 效率 提高 M 倍 。 


3.4.2.1 散 列 表 的 大 小 

在 实现 基于 拉链 法 的 散 列 表 时 ， 我 们 的 目标 是 选择 适当 的 数组 大 小 M， 既 不 会 因为 空 链表 
而 浪费 大 量 内 存 ， 也 不 会 因为 链表 太 长 而 在 查找 上 浪费 太 多 时 间 。 而 拉链 法 的 一 个 好 处 就 是 这 
并 不 是 关键 性 的 选择 。 如 果 存 人 的 键 多 于 预期 ， 查 找 所 需 的 时 间 只 会 比 选择 更 大 的 数组 稍 长 ; 
如 果 少 于 预期 ,虽然 有 些 空间 浪费 但 查找 会 非常 快 。 当 内 存 不 是 很 紧张 时 ， 可 以 选择 一 个 足够 


大 的 M， 使 得 查找 需要 的 时 间 变 为 常数 ; 当 内 存 紧张 时 ， 选 择 尽量 大 的 W 仍然 能 够 将 性 能 提高 |467 


LU 


M 倍 。 例 如 对 于 FrequencyCounter， 从 图 3.4.5 可 以 看 出 ， 每 次 操作 所 需要 的 比较 次 数 从 使 
SequentialSearchST 时 的 上 千 次 降低 到 了 使 用 SeparateChainingHashsT 时 的 若干 次 ， 正 如 我 


贱 
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们 所 料 。 男 一 种 方法 是 动态 调整 数组 的 大 小 以 保持 短小 的 链表 ( 请 见 练习 3.4.18 ) 。 


0 10 20 30 


图 3.4.4 使 用 SeparateChainingHashST， 运行 java FrequencyCounter 8 < tale.txt 时 所 有 链 
表 的 长 度 ( 另 见 彩 插 ) 
3.4.2.2 ”删除 操作 

要 删除 一 个 键 值 对 ， 先 用 散 列 值 找到 含有 该 键 的 SequentialSearchST 对 象 ， 然 后 调用 该 对 象 
的 delete() 方法 〈 请 见 练习 3.1.5 ) 。 这 种 重用 已 有 代码 的 方式 比重 新 实现 链表 的 删除 更 好 。 
3.4.2.3 ”有 序 性 相关 的 操作 

散 列 最 主要 的 目的 在 于 均匀 地 将 键 散布 开 来 ， 因 此 在 计算 散 列 后 键 的 顺序 信息 就 丢失 了 。 如 果 你 
需要 快速 找到 最 大 或 者 最 小 的 键 ， 或 是 查找 某 个 范围 内 的 键 ， 或 是 实现 表 3.1.4 中 有 序 符号 表 API 中 
的 其 他 任何 方法 ， 散 列表 都 不 是 合适 的 选择 ， 因 为 这 些 操 作 的 运行 时 间 都 将 会 是 线性 的 。 
基于 拉链 法 的 散 列 表 的 实现 简单 。 在 键 的 顺序 并 不 重要 的 应 用 中 ， 它 可 能 是 最 快 的 ( 也 是 使 
用 最 广泛 的 ) 符号 表 实现 。 当 使 用 Java 的 内 置 数 据 类 型 作为 键 ，, 或 是 在 使 用 含有 经 过 完善 测试 的 
hashCode() 方法 的 自 定义 类 型 作为 键 时 ， 算 法 3.5 能 够 提供 快速 而 方便 的 查找 和 插入 操作 。 下 面 ， 
我 们 会 介绍 男 一 种 解决 碰撞 冲突 的 有 效 方法 。 


累计 平均 


0 操作 14 350 


468| 图 3.4.5 使 用 SeparateChainingHashST， 运 行 java _ FrequencyCounter 8 < tale.txt 的 成 本 
(M=997) 


3.4.3 ”基于 线性 探测 法 的 散 列表 

实现 散 列表 的 另 一 种 方式 就 是 用 大 小 为 M 的 数组 保存 N 个 键 值 对 ， 其 中 M>N。 我 们 需要 依靠 
数组 中 的 空位 解决 碰撞 冲突 。 基 于 这 种 策略 的 所 有 方法 被 统称 为 开放 地 址 散 列 表 。 
开放 地 址 散 列 表 中 最 简单 的 方法 叫做 线性 探测 法 ， 当 碰撞 发 生 时 ( 当 一 个 键 的 散 列 值 已 经 被 另 
个 不 同 的 键 占用 ) ， 我 们 直接 检查 散 列表 中 的 下 一 个 位 置 (将 索引 值 加 1 ) 。 这 样 的 线性 探测 可 
能 会 产生 三 种 结果 : 
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口 命中 ， 该 位 置 的 键 和 被 查找 的 键 相同 ; 
口 未 命中 ， 键 为 空 〈 该 位 置 没有 键 ) ; 
口 继续 查找 ， 该 位 置 的 键 和 被 查找 的 键 不 同 。 
我 们 用 散 列 函数 找到 键 在 数组 中 的 索引 ， 检 查 其 中 的 键 和 被 查找 的 键 是 否 相 同 。 如 果 不 同 则 继 
续 查 找 ( 将 索引 增 大 ， 到 达 数 组 结尾 时 折 回 数组 的 开头 ) ， 直 到 找到 该 键 或 者 遇 到 一 个 空 元 素 ， 如 
图 3.4.6 所 示 。 我 们 习惯 将 检查 一 个 数组 位 置 是 否 含有 被 查找 的 键 的 操作 称 作 探测 。 在 这 里 它 可 以 
等 价 于 我 们 一 直 使 用 的 比较 ， 不 过 有 些 探测 实际 上 是 在 测试 键 是 否 为 空 。 

开放 地 址 类 的 散 列表 的 核心 思想 是 与 其 将 内 存 用 作 链 表 ， 不 如 将 它们 作为 在 散 列表 的 空 元 素 。 
这 些 空 元 素 可 以 作为 查找 结束 的 标志 。 在 LinearProbingHashsT 中 可 以 看 到 (算法 3.6 ) ,使 用 这 
种 思想 来 实现 符号 表 的 API 是 十 分 简单 的 。 我 们 在 实现 中 使 用 了 并 行 数 组 ， 一 条 保存 键 ， 一 条 保存 
值 ， 并 像 前 面 讨 论 的 那样 使 用 散 列 函数 产生 访问 数据 所 需 的 数组 索引 。 


键 散 列 值 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
s 6 3 
0 

E 10 红色 的 是 

新 插 从 的 键 SS A 灰色 的 键 
A 4 2 一 未 被 访问 
R 14 3 
c 5 黑色 的 和 
，， 是 的 名 入 

5 
E 10 (©) 
XX 15 2 
A 4 
M1 9 探测 序列 
.一 折 回 到 0 
p 14 十 R Xx 
L 6 S H | 
= 上 用 [J 
Ee 网 vs 
玖 3.4.6 ”标准 索引 用 例 使 用 的 基于 线性 探测 的 符号 表 的 轨迹 ( 另 见 彩 插 ) 469 


算法 3.6 ”基于 线性 探测 的 符号 表 


public class LinearProbingHashST<Key, Value> 


{ 
private int N; // 符号 表 中 键 值 对 的 总 数 
private int M = 16; // 线性 探测 表 的 大 小 
private Key[] keys; // 键 


private Value[] vals; // 值 
public LinearProbingHashSTO) 
{ 

keys = (Key[]) new Object[M]; 


vals = (Value[]j) new Object[M] ; 
} 
private int hash(Key key) 
{ return (key.hashCode() & Ox7fffffff) % M; } 


private void resize() // 请 见 3.4.4 节 


public void put(Key key, Value val) 


if (CN >= M/2) resize(2*M); // 将 M 加 倍 (请 见 正文 ) 


Tnt 1 

for (i = hash(key); keys[i] != null; i = (i + 1) % M) 
if (keys[i].equals(key)) { vals[i] = val; return; } 

keys[i] = key; 


vals[i] val; 

N++; 
} 
public Value get(Key key) 
{ 


for (int 1 = hash(key); keys[i] != null; i = (i + 1) % M) 
if (keys[i].equals(key)) 
return vals[i]; 
return null; 
} 


这 段 符号 表 的 实现 将 键 和 值 分 别 保存 在 两 个 数组 中 (与 BinarySearchST 类 型 中 一 样 ), 使 用 空 ( 标 
记 为 nu11 ) 来 表示 一 复 键 的 结束 。 如 果 一 个 新 键 的 散 列 值 是 一 个 空 元 素 ， 那 么 就 将 它 保存 在 那里 ;如果 
不 是 ,我 们 就 顺序 查找 一 个 空 元 素来 保存 它 。 要 查找 一 个 键 ， 我 们 从 它 的 散 列 值 开始 顺序 查找 ， 如 果 找 
到 则 命中 ， 如 果 遇 到 空 元 素 则 未 命中 。keys 0) 方法 的 实现 请 见 练习 3.4.19。 


3.4.3.1 删除 操作 public void delete(Key key) 
如 何 从 基于 线性 探测 的 散 列 表 中 删除 一 个 { 


键 ? 仔细 想 一 想 ， 你 会 发 现 直接 将 该 键 所 在 的 位 Te、 return; 
置 设 为 nu11 是 不 行 的 ， 因 为 这 会 使 得 在 此 位 置 之 while (!key.equals(keys[i])) 
后 的 元 素 无 法 被 查找 。 例 如 ， 假 设 在 轨迹 图 的 例 a 
子 中 (图 3.4.6 ) 我 们 需要 用 这 种 方法 删除 键 C， vals[i] = null; 
然后 查找 H。H 的 散 列 值 是 4， 但 它 实 际 存储 在 这 ee 
一 艇 刍 的 结尾 ， 即 7 号 位 置 。 如 果 我 们 将 5 号 位 f 
tn PL Wi 
我 们 需要 将 簇 中 被 删除 键 的 右 侧 的 所 有 键 重新 插 keys[i] = null; 
和 散 列表 。 这 个 过 程 比 想象 的 要 复杂 ， 所 以 你 最 "es 
好 以 练习 (请 见 练习 3.4.17 ) 为 例 跟 踪 右 侧 这 段 代 put(keyToRedo, valToRedo); 
码 的 运行 全 过 程 。 i= (i+1)%M; 

和 拉链 法 一 样 ， 开 放 地 址 类 的 散 列 表 的 性 能 N--; 
也 依赖 于 a=N/M 的 比值 ， 但 意义 有 所 不 同 。 我 们 。 } if (N > 0 && N == M/8) resize(M/2); 


将 a 称 为 散 列表 的 使 用 率 。 对 于 基于 拉链 法 的 散 
列表 ，a 是 每 条 链表 的 长 度 ， 因 此 一 般 大 于 1; 基于 线性 探测 的 散 列表 的 删除 操作 
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对 于 基于 线性 探测 的 散 列 表 ，a 是 表 中 已 被 占用 的 空间 的 比例 ， 它 是 不 可 能 大 于 1 的 。 事 实 上 , 在 
LinearProbingHashsT 中 我 们 不 允许 a 达到 1〈 散 列表 被 占 满 ) ， 因 为 此 时 未 命中 的 查找 会 导致 
无 限 循环 。 为 了 保证 性 能 ， 我 们 会 动态 调整 数组 的 大 小 来 保证 使 用 率 在 1/8 到 1/2 之 间 。 这 个 策略 


HH 


是 基于 数学 上 的 分 析 ， 我 们 会 在 讨论 实现 的 细节 之 前 介绍 。 4 
3.4.3.2 ” 键 簇 
线性 探测 的 平均 成 本 取决 于 元 素 在 插入 数组 后 聚集 成 新 键 落 入 该 候 
的 一 组 连续 的 条 目 ， 也 叫做 键 答 , 如 图 347 所 示 。 例如， 插入 之 前 ”外 靶 这 为 /64 
在 示例 中 搬入 键 5 会 产生 一 个 长 度 为 3 的 键 徐 (AC S ) 。 插入 时 新 键 
这 意味 着 插入 H 需要 探测 4 次 ， 因 为 H 的 散 列 值 为 该 键 簇 .，.， 在 这 里 ，，,， 
的 第 一 个 位 置 。 显 然 ， 短 小 的 键 艇 才能 保证 较 高 的 效率 。 sft 
随 着 插入 的 键 越 来 越 多 ， 这 个 要 求 很 难 满足 ， 较 长 的 刍 秘 。 插入 之 后 _ 一 键 生产 生 了 
和 js 训 必 8 站 二 晤 外 - 国 的 [ES 后 入 性 由 访 ) ， 守 人 1EE 光 aa 
数组 的 每 个 位 置 都 有 相同 的 可 能 性 被 插入 一 个 新 键 ， 长 键 ” 图 3.4.7 线性 探测 法 中 的 键 徐 (M=64) 


徐 更 长 的 可 能 性 比 短 键 禾 更 大 ， 因 为 新 键 的 散 列 值 无 论 落 

在 簇 中 的 任何 位 置 都 会 使 秘 的 长 度 加 1 ( 甚至 更 多 ， 如 果 这 个 艇 和 相 邻 的 簇 之 间 只 有 一 个 空 元 素 相 
隔 的 话 ) 。 下 面 我 们 要 将 键 篮 的 影响 量化 来 预测 线性 探测 法 的 性 能 ， 并 使 用 这 些 信 息 在 我 们 的 实现 
中 设置 适当 的 参数 值 。 


随机 法 


长 键 艇 很 常见 keys[0. .127] 
SS 


keys[8064. .8192] 
图 3.4.8 数组 的 使 用 模式 (2048 个 键 ， 每 行 128 个 ) 472 


3.4.3.3 ”线性 探测 法 的 性 能 分 析 
尽管 最 后 的 结果 的 形式 相对 简单 ， 准 确 分 析 线 性 探测 法 的 性 能 是 非常 有 难度 的 。Knuth 在 1962 
年 作出 的 以 下 推导 是 算法 分 析 史 上 的 一 个 里 程 碑 。 
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命题 M。 在 一 张大 小 为 M 并 含有 NE awM 个 键 的 基于 线性 探测 的 散 列表 中 ， 基 于 假设 J， 命 中 
和 未 命中 的 查找 所 需 的 探测 次 数 分 别 为 : 


-1+ 2 jn- ! | 
2 ia 2 do 
特别 是 当 a 约 为 /2 时， 查找 命中 所 需要 的 探测 次 数 约 为 3/22， 未 命中 所 需要 的 约 为 5/2。 当 a 


趋 近 于 1 时 ， 这 些 估计 值 的 精确 度 会 下 降 ， 但 不 需要 担心 这 些 情况 ， 因 为 我 们 会 保证 散 列 表 的 
使 用 率 小 于 1/2。 


讨论 。 要 计算 平均 值 ， 首 先 要 计算 在 散 列 表 中 每 个 位 置 上 出 现 查找 未 命中 所 需要 的 探测 次 数 ， 
然后 将 所 有 探测 次 数 之 和 除 以 WM。 所 有 查找 未 命中 都 至 少 需 要 一 次 探测 ， 因 此 我 们 从 第 一 次 探 
测 之 后 开始 计数 。 考虑 在 一 张 半 满 的 (M52N ) 线 性 探测 散 列 表 中 可 能 出 现 的 以 下 两 种 极端 情况 : 
在 最 好 的 情况 下 ， 偶 数位 置 的 数组 元 素 都 是 空 的 ， 奇 数位 置 的 数组 元 素 都 是 满 的 ; 在 最 坏 的 情 
况 下 ， 前 半 张 表 是 空 的， 后 半 张 表 是 满 的 。 键 佬 的 平均 长 度 在 两 种 情况 下 都 是 N/(2N)=1/2， 但 
未 命中 的 查找 所 需 的 平均 探测 次 数 在 最 好 情况 下 为 1( 所 有 的 查找 都 至 少 需要 一 次 探测 ) 加 上 
(0+1+0+1+…)/(2N)=1/2， 在 最 坏 情况 下 为 1 加 上 (N+(N-1)+…)/(2N)~N/4。 将 这 段 证 明 一 般 化 可 
得 未 命中 的 查找 平均 所 需 的 比较 次 数 和 键 比 长 度 的 平方 成 正比 。 如 果 一 个 键 敌 的 长 度 为 f， 那 
么 (tt( 夺 1+t…+2+1)/M=t(tt1)/(2M) 就 是 在 这 段 键 丛 中 查找 未 命中 所 需 的 平均 探测 次 数 。 因 为 所 
有 键 比 的 总 长 度 肯 定 为 N， 所 以 将 表 中 所 有 刍 敌 所 得 的 平均 探测 次 数 相 加 可 以 得 到 ， 一 次 未 命 
中 的 查找 的 平均 成 本 为 1HM(CM)+( 每 个 键 徐 的 长 度 的 平方 之 和 )， 再 除 以 2M。 因 此 ， 给 定 一 
张 散 列表 ， 我 们 就 可 以 快速 计算 该 表 中 一 次 未 命中 查找 的 平均 成 本 《请 见 练习 3.4.21 ) 。 一 般 
情况 下 ， 刍 比 的 形成 需要 一 个 复杂 的 动态 过 程 ( 也 就 是 线性 探测 算法 ) ， 很 难 分 析 并 找 出 特点 ， 
473 而 且 这 也 远 远 超出 了 本 书 的 讨论 范围 。 


命题 M 告诉 我 们 (在 假设 J 的 前 提 下 ) 当 散 列表 快 满 的 时 候 查 找 所 需 的 探测 次 数 是 巨大 的 ( a 
越 趋 近 于 1, 由 公式 可 知 探测 的 次 数 也 越 来 越 大 ) , 但 当 使 用 率 a 小 于 1/2 时 探测 的 预计 次 数 只 在 1.5 
到 2.5 之 间 。 下 面 ， 我 们 为 此 来 考虑 动态 调整 散 列 表 数 组 的 大 小 。 


3.4.4 调整 数组 大 小 
我 们 可 以 使 用 第 1 章 中 
介绍 的 调整 数组 大 小 的 方法 来 


保 证 散 列表 的 使 用 率 永远 都 private void resize(int cap) 
不 会 超过 /2。 首 先 ， 我 们 的 LinearProbingHashST<Key, Value> t; 


t = new LinearProbingHashST<Key, Value>(cap); 


; ; 各 本 
LinearProbingHashST 需要 ee a 


个 新 的 构造 函数 ， 它 接受 一 个 ey 
固定 的 容量 作为 参数 ( 在 算法 tputCkeys[i], vals[i]); 
局 一 keys = t.keys; 
3.6 的 构造 函数 中 加 入 一 行 代 码 vals = t.vals; 
M = 


就 可 以 在 创建 数组 之 前 将 M 设 
为 给 定 的 值 ) 。 然 后 ， 我 们 需 
要 右边 给 出 的 resize() 方 法。 调整 线性 探测 散 列 表 
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它 会 创建 一 个 新 的 给 定 大 小 的 LinearProbingHashST， 保 存 原 表 中 的 keys 和 values 变量 ， 然 后 
将 原 表 中 所 有 的 键 重 新 散 列 并 插入 到 新 表 中 。 这 使 我 们 可 以 将 数组 的 长 度 加 倍 。put 0O) 方法 中 的 第 
一 条 语句 会 调用 resize() 来 保证 散 列 表 最 多 为 半 满 状态 。 这 段 代 码 构造 的 散 列表 比 原来 大 一 倍 ， 
因此 a 的 值 就 会 减 半 。 和 其 他 需要 调整 数组 大 小 的 应 用 场景 一 样 ， 我 们 也 需要 在 delete 0) 方法 
的 最 后 加 上 : 

if (N > 0 && N <= M/8) resize(M/2); 
以 保证 所 使 用 的 内 存量 和 表 中 的 键 值 对 数量 的 比例 总 在 一 定 范围 之 内 。 动 态 调 整数 组 大 小 可 以 为 我 
们 保证 a 不 大 于 1/2。 
3.4.4.1 ”拉链 法 

我 们 可 以 用 相同 的 方法 在 拉链 法 中 保持 较 短 的 链表 (平均 长 度 在 2 到 8 之 间 ) : 在 
resize() 中 将 LinearProbingHashST 蔡 换 为 SeparateChainingHashST， 当 N >= 8*M 时 调用 
resize(2*M) ， 并 在 delete() 中 (在 N > 0 &&N <= 2*M 时 ) 调用 resize(M/2)。 对 于 拉链 法 ， 
如 果 你 能 准确 地 估计 用 例 所 需 的 散 列表 的 大 小 N， 调 整数 组 的 工作 并 不 是 必需 的 ， 只 需要 根据 查找 
耗 时 和 (1+MAM ) 成 正比 来 选取 一 个 适当 的 MM 即 可 。 而 对 于 线性 探测 法 ,调整 数组 的 大 小 是 必需 的 ， 
因为 当 用 例 插入 的 键 值 对 数量 超过 预期 时 它 的 查找 时 间 不 仅 会 变 得 非常 长 ， 还 会 在 散 列 表 被 填 满 时 
进入 无 限 循 环 。 474 
3.4.4.2 ” 均 摊 分 析 

从 理论 角度 来 说 ， 当 我 们 动态 调整 数组 大 小 时 ， 需 要 找 出 均 挫 成 本 的 上 限 ， 因 为 我 们 知道 使 散 
列表 长 度 加 倍 的 插入 操作 需要 大 量 的 探测 。 


命题 N。 假 设 一 张 散 列表 能 够 自己 调整 数组 的 大 小 , 初始 为 空 。 基于 假设 J, 执行 任意 顺序 的 1 次 查找 、 
插入 和 删除 操作 所 需 的 时 间 和 +t 成 正比 ， 所 使 用 的 内 存量 总 是 在 表 中 的 键 的 总 数 的 常数 因子 范围 内 。 


证 明 。 对 于 拉链 法 和 线性 探测 法 ,结合 命题 K 和 命题 M 可 知 ， 这 个 命题 只 是 对 我 们 在 第 1 章 
中 第 一 次 讨论 过 的 数组 增长 的 均 摊 分 析 的 简单 重复 而 已 。 


如 图 3.4.9 和 图 3.4.10 所 示 ， 在 FrequencyCounter 的 例子 中 ， 累 计 平 均 的 曲线 很 好 地 显示 出 
散 列 表 中 调整 数组 大 小 的 动态 行为 。 每 次 数组 长 度 加 倍 之 后 ， 累 计 平均 值 都 会 增加 约 1， 因 为 表 中 
的 每 个 键 都 需要 重新 计算 散 列 值 。 然 后 该 值 慢 慢 下 降 ， 因 为 半数 左右 的 键 被 重新 分 配 到 了 表 中 的 不 


同位 置 。 随 着 表 中 的 键 的 增加 ， 该 值 下 降 的 速度 也 慢 慢 降低 。 


10 累计 平均 

这 

洁 4.2 
| 

0 
0 操作 14 350 


图 3.4.9 使 用 能 够 自动 调整 数组 大 小 的 SeparateChainingHashST， 运 行 java FrequencyCounter 
8< tale.txt 的 成 本 
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470 


累计 平均 


js 
SS 


等 价 性 测试 


SS 二 


0 操作 14350 


3.4.10 ”使 用 能 够 自动 调整 数组 大 小 的 LinearProbingHashST， 运 行 java _ FrequencyCounter 8 < 
tale.txt 的 成 本 


3.4.5 ”内存 使 用 


我 们 说 过 ， 如 果 我 们 希望 将 散 列表 的 性 能 调整 到 最 优 ， 理 解 它 的 内 存 使 用 情况 是 非常 重要 的 。 
虽然 这 种 调整 是 专家 们 的 事 儿 ， 但 通过 估计 引用 的 使 用 数量 来 粗略 计算 所 需 的 内 存量 仍然 是 很 好 的 
练习 。 方 法 如 下 : 除了 存储 键 和 值 所 需 的 空间 之 外 ， 我 们 实现 的 SeparateChainingHashST 保存 
了 M 个 SequentialSearchST 对 象 和 它们 的 引用 。 每 个 SequentialSearchST 对 象 需要 16 字 方 ， 
它 的 每 个 引用 需要 8 字 节 。 另 外 还 有 N 个 node 对 象 ， 每 个 都 需要 24 字 节 以 及 3 个 引用 (key、 
value 和 next ) ， 比 二 又 查找 树 的 每 个 结 点 还 多 需要 一 个 引用 。 在 使 用 动态 调整 数组 大 小 来 保证 
表 的 使 用 率 在 1/8 到 1/2 之 间 的 情况 下 ， 线 性 探测 使 用 4V 到 16X 个 引用 。 可 以 看 出 ， 根 据 内 存 用 
量 来 选择 散 列 表 的 实现 并 不 容易 。 对 于 原始 数据 类 型 ， 这 些 计算 又 有 所 不 同 ( 请 见 练习 3.4.24 ) 。 

符号 表 的 内 存 使 用 如 表 3.4.2 所 示 。 


表 3.4.2 符号 表 的 内 存 使 用 


方 法 NN 个 元 素 所 需 的 内 存 (引用 类 型 ) 
基于 拉链 法 的 散 列表 ~48N+32M 
基于 线性 探测 的 散 列表 在 ~32N 和 ~128N 之 间 
各 种 二 又 查找 树 ~56N 


自 计算 机 发 展 的 伊始 ， 研 究 人 员 就 研究 了 (并且 现 在 仍 在 继续 研究 ) 散 列 表 并 找到 了 很 多 方法 
来 改进 我 们 所 讨论 过 的 几 种 基本 算法 。 你 能 找到 大 量 关于 这 个 主题 的 文献 。 大 多 数 改进 都 能 降低 时 
间 -空间 的 曲线 : 在 查找 耗 时 相同 的 情况 下 使 用 更 少 的 空间 ， 或 使 在 使 用 相同 空间 的 情况 下 进行 更 
快 的 查找 。 其 他 方法 包括 提供 更 好 的 性 能 保证 ， 如 最 坏 情况 下 的 查找 成 本 ; 改进 散 列 函 数 的 设计 等 。 
我 们 会 在 练习 中 讨论 其 中 的 部 分 方法 。 

拉链 法 和 线性 探测 法 的 详细 比较 取决 于 实现 的 细节 和 用 例 对 空间 和 时 间 的 要 求 。 即 使 基于 性 能 
考虑 ， 选 择 拉链 法 而 非 线性 探测 法 也 不 一 定 是 合理 的 〈 请 见 练习 3.5.31 ) 。 在 实践 中 ， 两 种 方法 的 
性 能 差别 主要 是 因为 拉链 法 为 每 个 键 值 对 都 分 配 了 一 小 块 内 存 而 线性 探测 则 为 整 张 表 使 用 了 两 个 很 
大 的 数组 。 对 于 非常 大 的 散 列 表 ， 这 些 做 法 对 内 存 管理 系统 的 要 求 也 很 不 相同 。 在 现代 系统 中 ， 在 
性 能 优先 的 情景 下 ， 最 好 由 专家 去 把 握 这 种 平衡 。 
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有 了 这 些 假设 ， 期 望 散 列 表 能 够 支持 和 数组 大 小 无 关 的 常数 级 别 的 查找 和 插入 操作 是 可 能 的 。 
对 于 任意 的 符号 表 实 现 , 这 个 期 望都 是 理论 上 的 最 优 性 能 。 但 散 列 表 并 非 包 治 百 病 的 灵丹妙药 ,因为 : 
口 每 种 类 型 的 键 部 需要 一 个 优秀 的 散 列 函 数 ; 
口 性 能 保证 来 自 于 散 列 函数 的 质量 ; 
口 散 列 函数 的 计算 可 能 复杂 而 且 昂贵 ; 
口 难以 支持 有 序 性 相关 的 符号 表 操 作 。 


在 考察 了 这 些 基本 问题 之 后 ， 我 们 会 在 3.5 节 的 开头 将 散 列 表 和 我 们 学 习 过 的 其 他 符号 表 的 实 
现 方法 进行 比较 。 477 
答疑 
问 Java 的 Integer、Double 和 Long 类 型 的 hashCode (0) 方法 是 如 何 实现 的 ? 
答 Integer 类 型 会 直接 返回 该 整数 的 32 位 值 . 对 于 Double 和 Long 类 型 ， pniiiesTla 
Java 会 返回 值 的 机 器 表示 的 前 32 位 和 后 32 位 异 或 的 结果 。 这 些 方法 Ek mm Qk 8 有 
可 能 不 够 随机 ， 但 它们 的 确 能 够 将 值 散 列 。 让 
问 ” 当 能 够 动态 调整 数组 大 小 时 ， 散 列表 的 大 小 总 是 2 的 需 ， 这 不 是 个 问 ”7 1 127 
题 吗 ? 这 样 hashQ 方法 就 只 使 用 了 hashCodeQ 返回 值 的 低位 。 8 5 251 
答 ”是 的 ， 这 个 问题 在 默认 实现 中 特别 明显 。 解 决 这 个 问题 的 一 种 方法 是 0 3 
先 用 一 个 大 于 M 的 素数 来 散 列 键 值 对 ， 例 如 : a 9 2039 
AE int hash(Key x) 是 we 
int t = x.hashCode() & Ox7fffffff; 14 3 16381 
if (lgM < 26) t = t % primes[1gM+5]; 15 19 32749 
return 七 % M; 16 上 5 65521 
17 1 131071 
这 段 代码 假设 我 们 使 用 了 一 个 变量 lgM， 它 的 值 等 于 lgM ( 直接 初始 30， 
化 为 该 值 ， 并 在 将 数组 长 度 加 倍 或 者 减 半 时 增 大 或 者 减 小 它 ) , 以 ”20 3 1048573 
及 一 个 数组 primes[] ， 其 中 含有 大 于 各 个 2 的 备 的 最 小 素数 (请 见 21 9 2097143 
右 表 ”) 。 代 码 中 的 常数 5 是 随意 取 的 一 个 值 一 我 们 希 户 第 一 次 取 23 15 es 
余 操 作 ( % ) 能 够 将 所 有 值 散 列 在 小 于 该 素数 的 范围 之 内 ， 而 第 二 次 24 3 16777213 
取 余 操作 则 将 其 中 的 5 个 值 映射 到 小 于 M 的 所 有 值 中 。 请 注意 , 对 5  “。 。 
于 很 大 的 M 这 是 没有 意义 的 。 27 39 134217689 
问 我 忘记 了 ， 为 什么 不 将 hash (x) 实现 为 x.hashCode() % M? 28 57 268435399 
答 _ 散 列 值 必须 在 0 到 ML_1 之 间 , 而 在 Java 中, 取 余 (%) 的 结果 可 能 是 负数 。 30 。 35 1073741789 
问 ” 那 为 什么 不 将 hash (x) 实现 为 Math.abs(x.hashCode(C)) % MY? 31 2147483647 


答 ” 问 得 好 ， 不 幸 的 是 对 于 最 大 的 整数 Math .abs( 会 返回 一 个 负 值 。 对 将 散 列 表 大 小 设 为 素数 478 
于 许多 典型 情况 ， 这 种 溢出 不 会 造成 什么 问题 ， 但 对 于 散 列 表 这 可 能 
使 你 的 程序 在 几 十 亿 次 插入 之 后 崩溃 ， 这 很 难说 。 例 如 ，Java 中 字符 串 "polygenelubricants" 的 
散 列 值 为 -22"。 找 出 散 列 值 为 这 个 数 ( 以 及 为 0 ) 的 其 他 字符 串 已 经 变 成 了 一 种 有 趣 的 算法 谜 题 。 


GD 这 里 似乎 和 表 的 内 容 不 相符 ， 表 中 prime[k] 的 值 是 小 于 2 的 最 大 素数 。 一 一 译 者 注 
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问 ”在 算法 3.5 


P 为 什么 使 用 


找 


SequentialSearchST 而 非 BinarySearchST 或 者 RedBlackBST? 


答 一般 来 说 ， 我 们 希望 散 列 到 每 个 索引 值 上 的 键 越 少 越 好 ， 而 对 于 小 规模 符号 表 初 级 实现 的 性 能 一 般 
更 好 。 在 某 些 情况 下 , 使 用 这 些 复杂 的 实现 也 许 能 够 稍稍 将 性 能 提高 , 但 最 好 让 专家 来 进行 这 种 调 优 。 
问 ” 散 列表 的 查找 比 红 黑 树 更 快 吗 ? 


答 这 取决 于 键 的 类 型 ， 


见 的 键 类 型 以 及 Java 的 默认 实现 ， 这 两 者 的 成 本 是 近似 的 ， 因 此 散 列 表 会 比 红 黑 树 快 得 多 ， 因 为 


它 决 定 了 hashCode() 的 计算 成 本 是 否 大 于 compareTo() 的 比较 成 本 。 对 于 常 
它 


所 需 的 操作 次 数 是 固定 的 。 但 需要 注意 的 是 , 如 果 要 进行 有 序 性 相关 的 操作 , 这 个 问题 就 没有 意义 了 ， 
因为 散 列表 无 法 高 效 地 支持 这 些 操 作 。 进 一 步 的 讨论 请 见 3.5 节 。 
问 为 什么 不 能 让 基于 线性 探测 的 散 列 表 充 满 四 分 之 三 ? 


答 ”没什么 特别 的 原因 。 你 可 以 选择 任意 的 a 值 六 


j 命 题 M 来 估计 相应 的 查找 成 本 。 对 于 a=3/4， 查 


找 命中 的 平均 成 本 为 2.5， 未 命中 的 为 8.5。 但 如 有 果 你 允许 a 增长 到 7/8， 查 找 坟 命中 的 平均 成 本 就 
会 达到 32.5， 这 可 能 已 经 超出 了 你 的 承受 能 力 。 随 着 a 趋 近 于 1, 命题 M 得 出 的 估计 值 的 准确 度 会 


479 


480 


图 练习 


3.4.1 
3.4.2 
3.4.3 


3.4.4 
3.4.5 
3.4.6 


3.4.7 


3.4.8 


3.4.10 将 键 EASYQUTION 依次 捐 


下 降 ， 但 你 不 应 该 使 散 列 表 的 占有 率 达到 那 种 程度 。 


将 键 E ASYQUTION 依次 插入 一 张 初始 为 空 且 含有 MM=5 条 链表 的 基于 拉链 法 的 散 列表 中 。 


使 用 散 列 函数 11 k % M 将 第 大 个 字母 散 列 到 某 个 数 纪 
重新 实现 SeparateChainingHashST， 直 接 使 用 SequentialSearchST 中 链表 部 分 的 代码 。 


晶 索 引 上 。 


修改 你 为 上 一 道 练习 给 出 的 实现 ， 为 每 个 键 值 对 添加 一 个 整 型 变量 ， 将 其 值 设 为 插入 该 键 值 对 时 


散 列 表 中 元 素 的 数量 。 实 现 一 个 方法 ， 将 该 变量 的 值 大 了 


删除 。 注 意 : 


这 个 额外 的 功能 在 为 编译 器 实现 符号 表 时 很 有 月 


给 定 整数 k 的 键 ( 及 其 相应 的 值 ) 全 部 


日 。 


使 用 散 列 函数 (a * k) % M 将 SEARCHXMPL 中 的 第 大 个 键 散 列 为 一 个 数组 索引 。 编 写 
一 段 程序 找 出 a 和 最 小 的 M， 使 得 该 散 列 函数 得 到 的 每 个 索引 都 不 相同 ( 没有 碰撞 ) 。 这 样 的 函 
数 也 被 称 为 完美 散 列 函数 。 

下 面 这 段 hashCode() 的 实现 合法 吗 ? 


public int hashCode() 
{ return 17; } 


如 果 合 法 ， 请 描述 它 的 使 用 效果 ， 否 则 请 解释 原因 。 
假设 键 为 1 位 整数 。 对 于 一 个 使 用 素数 M 的 除 留 余数 法 的 散 列 函数 ， 请 证 明 对 于 键 的 每 一 位 ， 都 
存 不 同 的 两 个 键 ， 它 们 的 散 列 值 只 有 该 位 不 同 。 
考虑 对 于 整 型 的 键 将 除 留 余数 法 的 散 列 函数 实现 为 (a * k) % M, 其 中 a 为 一 个 任意 的 固定 素数 。 
这 样 是 否 足 以 利用 键 的 所 有 位 使 得 我 们 可 以 使 用 一 个 非 素数 M 了 呢 ? 

对 于 NE10、10、10 、10 、10 和 10"， 请 估计 将 YX 个 键 插入 一 张 SeparateChainingHashST 的 散 
列表 后 还 剩 多 少 空 链表 ?提示 : 参考 练习 2.5.31。 
3.4.9 为 SeparateChainingHashST 实现 一 个 即时 的 delete() 方法 。 


表 中 。 使 ) 
成 一 遍 。 


站 和 一 张 初始 为 空 量 大 小 为 M=16 的 基于 线性 探测 法 的 散 列 
j 散 列 函 数 11 k % M 将 第 天 个 字母 散 列 到 某 个 数组 索引 上 。 对 于 M=10 将 本 题 重新 完 


3.4 散 列 表 二 309 


3.4.11 将 键 EASYQUTION 依次 插入 一 张 初始 为 空 大 小 为 M=4 的 基于 线性 探测 法 的 散 列表 中 ， 
数组 只 要 达到 半 满 即 自动 将 长 度 加 倍 。 使 用 散 列 函数 11 k % M 将 第 个 字母 散 列 到 某 个 数组 索 
引 上 。 给 出 得 到 的 散 列 表 的 内 容 。 

3.4.12 设 有 键 A 到 G， 散 列 值 如 下 所 示 。 将 它们 按照 一 定 顺序 插入 到 一 张 初始 为 空 大 小 为 7 的 基于 线 

性 探测 的 散 列表 中 ( 这 里 数组 的 大 小 不 会 动态 调整 ) 。 下 面 哪 个 选项 是 不 可 能 由 插入 这 些 键 产 

生 的 ? 给 出 这 些 键 在 构造 散 列表 时 可 能 所 需 的 最 大 和 最 小 探测 次 数 ， 并 给 出 相应 的 插入 顺序 来 

证 明 你 的 答案 。 

EFGACBD 

EBGFDA 

DFACESG 

GBADEF 

GBDACE 

ECADBEF 


mo pn op 
AHOROo 


键 A B C BB E F G 
散 列 值 (M=7) 2 0 0 4 4 4 2 


3.4.13 ”在 下 面 哪些 情况 中 基于 线性 探测 的 散 列 表 中 的 一 次 随机 的 命中 查找 所 需 的 时 间 是 线性 的 ? 
a. 所 有 键 均 被 散 列 到 同一 个 索引 上 
b. 所 有 键 均 被 散 列 到 不 同 的 索引 上 
c. 所 有 键 均 被 散 列 到 同一 个 偶数 索引 上 
d. 所 有 键 均 被 散 列 到 不 同 的 偶数 索引 上 
3.4.14 ”对 于 未 命中 的 查找 回答 上 一 道 练习 的 问题 ,假设 被 查找 的 键 被 散 列 到 表 中 任意 位 置 的 可 能 : 


均等 。 
3.4.15 在 最 坏 情 况 下 ， 向 一 张 初始 为 空 、 基 于 线性 探测 法 并 能 够 动态 调整 数组 大 小 的 散 列 表 中 插入 
个 键 需要 多 少 次 比较 ? 


3.4.16 ”假设 有 一 张大 小 为 10' 的 基于 线性 探测 的 散 列 表 已 经 半 满 了 ， 被 占用 的 元 素 随 机 分 布 。 请 估计 所 “|481 
有 索引 值 中 能 够 被 100 整除 的 位 置 都 被 占用 的 概率 。 
3.4.17 ”使 用 3.4.3.1 节 的 deleteQ 方法 从 标准 索引 测试 用 例 使 用 的 LinearProbingHashST 中 删除 键 C 并 
给 出 结果 散 列 表 的 内 容 。 
3.4.18 为 SeparateChainingHashST 添加 一 个 构造 函数 ， 使 用 例 能 够 指定 查找 操作 可 以 接受 的 在 链表 
中 进行 的 平均 探测 次 数 。 动 态 调整 数组 的 大 小 以 保证 链表 的 平均 长 度 小 于 该 值 ， 并 使 用 答疑 中 
所 述 的 方法 来 保证 hashQ 〇 方法 的 系数 总 是 素数 。 
3.4.19 为 SeparateChainingHashST 和 LinearProbingHashST 实现 keys() 方法 。 
3.4.20 为 LinearProbingHashsT 添加 一 个 方法 来 计算 一 次 命中 查找 的 平均 成 本 ,假设 表 中 每 个 键 被 查 
找 的 可 能 性 相同 。 
3.4.21 为 LinearProbingHashST 添加 一 个 方法 来 计算 一 次 未 命中 查找 的 平均 成 本 ,假设 使 用 了 一 个 随 
机 的 散 列 函 数 。 请 注意 : 要 解决 这 个 问题 并 不 一 定 要 计算 所 有 的 散 列 函数 。 
3.4.22 ”为 下 列 数据 类 型 实现 hashCode(0 方法. Point2D、Interval、Interval2D 和 Date。 
3.4.23 ”对 于 字符 串 类 型 的 键 ， 考 虑 R = 256 和 M = 255 的 除 留 余数 法 的 散 列 函数 。 请 证 明 这 是 一 个 糟 
糕 的 选择 ， 因 为 任意 排列 的 字母 所 得 字符 串 的 散 列 值 均 相同 。 
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3.4.24 


482 


对 于 double 类 型 ， 分 析 拉 链 法 、 线 性 探测 法 和 二 又 查找 树 的 内 存 使 用 情况 。 将 结果 整理 成 类 似 
于 表 3.4.2 的 表格 。 


图 提高 是 


3.4.25 


3.4.26 


3.4.27 


3.4.28 


3.4.29 
3.4.30 


483 


3.4.31 


3.4.32 


散 列 值 的 缓存 。 修 改 3.4.1.8 节 的 Transaction 类 并 维护 一 个 变量 hash， 在 hashCode0 方法 第 
一 次 为 一 个 对 象 计 算 散 列 值 后 将 值 保存 在 hash 中 , 这 样 随后 的 调用 就 不 必 重 新 计算 了 。 请 注意 : 
这 种 方法 仅 适 用 于 不 可 变 的 数据 类 型 。 
线性 探测 法 中 的 延 时 删除 。 为 LinearProbingHashST 添加 一 个 delete0) 方法 ， 在 删除 一 个 键 
值 对 时 将 其 值 设 为 nu11， 并 在 调用 resize() 方法 时 将 键 值 对 从 表 中 删除 。 这 种 方法 的 主要 难 
点 在 于 决定 何 时 应 该 调用 resize() 方法 。 请 注意 : 如 果 后 来 的 put0) 方法 为 该 键 指定 了 一 个 
新 的 值 ， 你 应 该 用 新 值 将 nu11 覆盖 掉 。 你 的 程序 在 决定 扩张 或 者 收缩 数组 时 不 但 要 考虑 到 数组 
的 空 元 素 ， 也 要 考虑 到 这 种 死 掉 的 元 素 。 
二 次 探测 。 修 改 SeparateChainingHashST， 进 行 二 次 散 列 并 选择 两 条 链表 中 的 较 短 者 。 将 键 
EASYQUTION 依次 插入 一 张 初始 为 空 且 大 小 为 M=3 的 基于 拉链 法 的 散 列 表 中 ， 以 11 
k % M 作 为 第 一 个 散 列 函数 ，17 k % M 作为 第 二 个 散 列 函数 来 将 第 下 个 字母 散 列 到 某 个 数组 索 
引 上 。 给 出 插入 过 程 的 轨迹 以 及 随机 的 命中 查找 和 未 命中 查找 在 该 符号 表 中 所 需 的 平均 探测 次 
数 。 
二 次 散 列 。 修 改 LinearProbingHashST， 进 行 二 次 散 列 以 得 到 探测 起 始点 。 确 切 地 说 ， 是 将 ( 所 
有 的 ) Ci + 1) % M 替 换 为 (i + k) % M, 其 中 k 是 一 个 非 零 . 和 M 互 质 上 且 和 键 相 关 的 整数 。 提 示 : 
可 以 令 M 为 素数 来 满足 互 质 的 条 件 。 使 用 上 一 道 练 习 中 给 出 的 两 个 散 列 函数 , 将 键 EA SYQU 
TION 依次 搬入 一 张 初始 为 空 且 大 小 为 M=11 的 基于 线性 探测 的 散 列 表 中 。 给 出 插入 过 程 的 轨 
迹 以 及 随机 的 命中 查找 和 未 命中 查找 所 需 的 平均 探测 次 数 。 
删除 操作 。 分 别 为 前 两 题 中 所 述 的 散 列 表 实 现 即 时 的 delete0) 方法 。 
卡 方 值 ( chi 一 square statistic ) 。 为 SeparateChainingHashST 添加 一 个 方法 来 计算 散 列表 的 
X 。 对 于 大 小 为 M 并 含有 N 个 元 素 的 散 列 表 ， 这 个 值 的 定义 为 : 

X2= (CUWNI(-NMVAM0 + FENIMD + +(f N/M)’) 
其 中 ,为 散 列 值 为 i 的 键 的 数量 。 这 个 统计 数据 是 检测 我 们 的 散 列 函 数 产 生 的 随机 值 是 否 
满足 假设 的 一 种 方法 。 如 果 满 足 ， 对 于 N>cM， 这 个 值 落 在 M - VM 和 M+ VM 之 间 的 概率 
为 1 - l/c。 
Cuckoo 散 列 函数 。 实 现 一 个 符号 表 ， 在 其 中 维护 两 张 散 列表 和 两 个 散 列 函 数 。 一 个 给 定 的 键 只 能 
存在 于 一 张 散 列表 之 中 。 在 插入 一 个 新 刍 时 ， 在 其 中 一 张 散 列表 中 插入 该 键 。 如 果 这 张 表 中 该 键 
的 位 置 已 经 被 占用 了 ， 就 用 新 键 奉 代 老 键 并 将 老 键 插入 到 另 一 张 散 列表 中 〈 如 果 在 这 张 表 中 该 键 
的 位 置 也 被 占用 了 ， 那 么 就 将 这 个 占用 者 重新 插入 第 一 张 散 列 表 ， 把 位 置 腾 给 被 插入 的 键 ) ， 如 
此 循环 往复 。 动 态 调整 数组 大 小 以 保持 两 张 表 都 不 到 半 满 。 这 种 实现 中 查找 所 需 的 比较 次 数 在 最 
坏 情况 下 是 一 个 常数 ， 插 入 操作 所 需 的 时 间 在 均 挫 后 也 是 常数 。 
散 列 攻击 。 找 出 2 个 hashCode() 方法 返回 值 均 相 同 且 长 度 均 为 2 的 字符 串 。 假 设 String 类 
型 的 hashCode() 方法 的 实现 如 下 : 
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public int hashCode() 
{ 


int hash = 0; 

for (int 1 = 0; 1 < lengthO); i ++) 
hash = (hash * 31) + charAt(i); 

return hash; 


重要 提示 : Aa 人 BB 的 散 列 值 相同 。 
3.4.33 ”糟糕 的 散 列 函数 。 考 虑 Java 的 早期 版 本 中 String 类 型 的 hashCode 0) 方法 的 实现 ， 如 下 所 示 : 


public int hashCode() 


int hash = 0; 

int skip = Math.max(1, length()/8); 

for (int 1 = 0; 1 < length(); i += skip) 
hash = (hash * 37) + charAt(i); 

return hash ; 


说 明 你 认为 设计 者 选择 这 种 实现 的 原因 以 及 为 什么 它 被 蔡 换 成 了 上 一 道 练习 中 的 实现 。 


3.4.34 散 列 的 成 本 。 用 各 种 常见 的 数据 类 型 进行 实验 以 得 到 hashQ 方法 和 compareTo0) 方法 的 耗 时 
比 的 经 验 数据 。 

3.4.35 卡 方 检验 。 使 用 你 为 练习 3.4.30 给 出 的 答案 验证 常用 数据 类 型 的 散 列 函数 产生 的 值 是 否 随机 。 

3.4.36 链表 长 度 的 范围 。 编 写 一 段 程序 ， 向 一 张 长 度 为 N100 的 基于 拉链 法 的 散 列表 中 插入 NN 个 随机 
的 int 键 ， 找 出 表 中 最 长 和 最 短 的 链表 的 长 度 ， 其 中 NE10 、10、10 和 10'。 

3.4.37 ”混合 使 用 。 用 实验 研究 在 SeparateChainingHashST 中 使 用 正 RedBlackBST 代替 SequentialSearchST 
来 处 理 碰撞 的 性 能 。 这 种 方案 的 优点 是 即使 散 列 函数 很 糟糕 它 仍然 能 够 保证 对 数 级 别 的 性 能 
缺点 是 需要 维护 两 种 不 同 的 符号 表 实现 。 实 际 效 果 如 何 呢 ? 

3.4.38 ”拉链 法 的 分 布 。 编 写 一 段 程序 ， 向 一 张大 小 为 10 的 基于 线性 探测 法 的 散 列表 中 插入 10’ 个 小 于 
10" 的 随机 非 负 整数 并 在 每 10 次 插入 后 打印 出 当前 探测 的 总 次 数 。 讨 论 你 的 结果 在 何 种 程度 上 


0 


二 


验证 了 命题 及 
3.4.39 线 ， ey 分 布 。 问 一 张大 小 为 NN 的 基于 线性 探测 法 的 散 列表 中 插入 N72 个 随机 非 负 整数 并 
根据 表 中 的 键 徐 计 算 一 次 未 命中 查找 的 平均 成 本 ,其 中 N=10、10*、10 和 10"。 讨 论 你 的 结果 
在 何 种 程度 上 验证 了 命 命题 M 
3.4.40 绘图。 改进 LinearProbi 本 和 SeparateChainingHashST 的 实现 ， 使 之 绘 出 和 正文 中 
类 似 的 图 表 。 
3.4.41 二 次 探测 。 用 实验 研究 来 评估 二 次 探测 法 的 效果 ( 请 见 练习 3.4.27 ) 。 
3.4.42 ”二 次 散 列 。 用 实验 研究 来 评估 二 次 散 列 法 的 效果 ( 请 见 练习 3.4.28 ) 。 
3.4.43 ”停车 问题 (D. Knuthb)。 用 实验 研究 来 验证 一 个 猜想 : 向 一 张大 小 为 M 的 基于 线性 探测 法 的 散 列 
表 中 插入 M 个 随机 键 所 需 的 比较 次 数 为 ~ cM”， 其 中 c= Vax/2 。 


中 这 个 题目 和 拉链 无 关 ， 是 原 书 的 bug。 一 一 译 者 注 
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3.5 ”应 用 


在 计算 机 发 展 的 早期 ， 符 号 表 帮 助 程 序 员 从 使 用 机 器 语言 的 数字 地 址 进化 到 在 汇编 语言 中 使 用 符 
号 名 称 ; 在 现代 应 用 程序 中 ， 符 号 名 称 的 含义 能 够 通行 于 跨越 全 球 的 计算 机 网 络 。 快 速 查找 算法 曾经 
并 继续 在 计算 机 领域 中 扮演 着 重要 角色 。 符 号 表 的 现代 应 用 包括 科学 数据 的 组 织 ， 例 如 在 基因 组 数据 
中 寻找 分 子 标 记 或 模式 从 而 绘制 全 基因 组 图 谱 ; 网 络 信息 的 组 织 ， 从 搜索 在 线 贸易 到 数字 图 书馆 ; 以 
及 互联 网 基础 构架 的 实现 ， 例 如 包 在 网 络 结 点 中 的 路 由 、 共 享 文件 系统 和 流 媒 体 等 。 高 效 的 查找 算法 
确保 了 这 些 以 及 无 数 其 他 重要 的 应 用 程序 成 为 可 能 。 在 本 节 中 我 们 会 考察 几 个 有 代表 性 的 例子 。 
口 能 够 快速 并 灵活 地 从 文件 中 提取 由 逗号 分 隔 的 信息 的 一 个 字典 程序 和 一 个 索引 程序 。 逗 号 分 
隔 的 格式 ( 及 类 似 格式 ) 常用 于 存储 网 络 信息 。 
口 为 一 组 文件 构建 逆向 索引 的 一 个 程序 。 
口 一 个 表示 稀 玻 矩 阵 的 数据 类 型 。 它 用 符号 表 处 理 的 问题 规模 能 够 远 远 大 于 这 种 数据 类 型 的 标准 实现 。 
在 第 6 章 中 ， 我 们 会 学 习 一 种 适合 于 数据 库 或 者 文件 系统 的 符号 表 ， 它 能 够 保存 的 数据 量 超过 
你 的 想象 。 
符号 表 在 本 书 其 他 章节 的 算法 中 也 会 起 到 关键 的 作用 。 例 如 ， 我 们 会 使 用 符号 表 来 表示 图 
4 章 ) 以 及 处 理 字符 串 (第 5 章 ) 。 
在 本 章 中 我 们 已 经 看 到 ， 实 现 能 够 快速 进行 各 种 操作 的 符号 表 是 一 项 很 有 挑战 性 的 任务 。 另 一 
方面 ， 我 们 学 习 过 的 实现 都 经 过 了 仔细 人 研究， 应 用 广泛 并 且 在 许多 环境 中 都 可 用 ( 包括 Java 的 标准 
库 ) 。 从 现在 开始 ， 符 号 表 就 将 成 为 你 的 编程 工具 箱 中 的 一 件 重要 武器 。 


3.5.1 我 应 该 使 用 符号 表 的 哪 种 实现 

表 3.5.1 总 结 了 由 本 章 中 多 个 命题 和 性 质 得 到 的 各 种 符号 表 算法 的 性 能 特点 〈 散 列表 的 最 坏 情 
况 除 外 ， 它 的 结果 来 自 于 研究 文献 并 且 也 不 太 可 能 在 实际 应 用 中 遇 到 ) 。 从 表 中 显然 可 以 知道 ， 对 
于 典型 的 应 用 程序 ， 应 该 在 散 列 表 和 二 又 查找 树 之 间 进 行 选择 。 

相对 二 又 查找 树 ， 散 列表 的 优点 在 于 代码 更 简单 ， 且 查找 时 间 最 优 ( 常数 级 别 ， 只 要 键 的 数据 
类 型 是 标准 的 或 者 简单 到 我 们 可 以 为 它 写 出 满足 (或 者 近似 满足 ) 均 匀 性 假设 的 高 效 散 列 函 数 即 可 )。 
二 又 查找 树 相 对 于 散 列 表 的 优点 在 于 抽象 结构 更 简单 〈 不 需要 设计 散 列 函数 ) ， 红 黑 树 可 以 保证 最 
坏 情况 下 的 性 能 且 它 能 够 支持 的 操作 更 多 ( 如 排名 、 选 择 、 排 序 和 范围 查找 ) 。 根 据 经 验 法 则 ， 大 
多 数 程序 员 的 第 一 选择 都 是 散 列表 ， 在 其 他 因素 更 重要 时 才 会 选择 红 黑 树 。 在 第 5 章 中 我 们 会 遇 到 
这 个 经 验 法 则 的 例外 : 当 键 都 是 长 字符 串 时 ， 我 们 可 以 构造 出 比 红 黑 树 更 灵活 而 又 比 散 列 表 更 高 效 
的 数据 结构 。 


AAS 


家 


AR 


表 3.5.1 各 种 符号 表 实现 的 渐进 性 能 的 总 结 
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最 坏 情 况 下 的 运行 时 间 的 增 | 平均 情况 下 的 运行 时 间 的 增长 内 存 使 用 
算法 (数据 结构 ) 长 数量 级 〈N 次 插入 之 后 ) | 数量 级 (NN 次 随机 插入 之 后 ) 关键 接口 
查找 插入 查找 命中 插入 《 字 节 ) 
顺序 查询 ( 无 序 链表 ) N N N/2 N equals() 48N 
二 分 查找 (有 序数 组 ) lgN N leN N/2 compareTo() |16N 
二 叉 树 查找 ( 二 又 查 找 树 ) N N 1.39lgN 1.39lgN | compareTo() |64N 
2-3 树 查 找 ( 红 黑 树 ) 2lgN 2lgN 1.00lgN 1.00leN | compareTo() | 64N 
A 1 
拉链 法 * (链表 数组 ) <lgN <lgN N/M) NM 0 0 |48N+32M 
hh 人 equals() 在 32N 和 
线性 探测 法 “( 并 行 数组 ) clgNV cleN <].5 <2.5 hashcodaC) | 128N 之 间 


* 需 要 均匀 并 独立 的 散 列 函数 。 


我 们 的 符号 表 实 现 已 经 可 以 广泛 应 


j 于 各 种 应 


应 并 支持 其 他 一 些 使 用 广泛 的 场景 ， 有 必要 在 这 里 提 一 下 。 


3:5.1.1 


原始 数据 类 型 


假设 我 们 有 一 张 符号 表 ， 其 中 整 型 的 键 对 应 着 浮 点 型 的 
值 。 如 果 使 用 我 们 的 标准 实现 ， 键 和 值 会 被 储存 在 Integer 和 
Double 类 中 , 因此 我 们 需要 两 个 额外 的 引用 来 访问 每 个 键 值 对 。 
如 果 应 用 程序 只 会 使 用 几 千 个 键 进行 几 千 次 查找 ， 那么 这 些 引 
用 可 能 没什么 问题 。 但 如 果 是 对 几 十 亿 个 键 进行 几 十 亿 次 查找 ， 


那么 这 些 引 


j 就 会 造成 巨大 的 额 儿 


3.5 
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j 程 序 ， 但 经 过 简单 的 修改 后 这 些 算法 还 可 以 适 


开销 。 使 用 原始 数据 类 型 代 


检 Key 类 型 可 以 为 每 个 键 值 对 节省 一 个 引用 。 当 键 的 值 也 是 原 
始 数据 类 型 时 我 们 又 可 以 节约 另外 一 个 引用 。 图 3.5.1 显示 了 在 


拉链 法 中 使 


j 原 始 数据 类 型 的 情况 ， 


这 种 交换 也 适用 于 符号 表 


的 其 他 实现 。 对 于 性 能 优先 的 应 用 程序 ， 这 种 改进 并 不 困难 并 


且 值得 一 坛 〈 请 见 练习 3.5.4 ) 。 
3.5.1.2 ”重复 键 


符号 表 的 实现 有 时 需要 专门 考虑 重复 键 的 可 能 性 。 许 多 应 


j 都 希望 能 够 为 同一 个 键 绑 定 多 个 值 。 例 如 在 一 个 交易 处 理 系 


因此 用 例 只 能 


统 中 , 多 笔 交 易 的 客户 属性 都 是 相同 的 。 符 号 表 不 允许 重复 键 ， 
己 管 理 重复 键 。 本 节 稍 后 我 们 会 遇 到 一 个 这 样 的 示例 程序 。 我 们 可 以 考虑 在 实现 中 


示 准 实现 
TE 数据 存储 在 Key 和 
> Value 对 象 中 
2 a 
[= | 到 全 Fr” 
站 、 
原始 数据 类 型 的 实现 
数据 存储 在 
/ 链表 结 点 中 
Ss 
| 
图 3.5.1 拉链 法 的 内 存 使 用 情况 


允许 数据 结构 保存 重复 的 键 值 对 ， 并 在 查找 时 返回 给 定 的 键 所 对 应 的 任意 值 之 一 。 我 们 也 可 以 加 入 
一 个 方法 来 返回 给 定 的 键 对 应 的 所 有 值 。 修 改 我 们 实现 的 二 又 查找 树 和 散 列 表 来 在 数据 结构 中 保存 


重复 的 键 并 不 困难 。 修 改 红 黑 树 可 能 会 稍 有 挑战 (请 见 练习 3.5.9 和 练习 3.5.10 ) 。 这 种 实现 在 许多 


文献 中 都 可 以 找到 ( 包括 本 书 以 前 的 版 本 ) 。 2 
3.5.1.3 ”Java 标准 库 
Java 的 java.util.TreeMap 和 java.util.HashMap 分 别 是 基于 红 黑 树 和 拉链 法 的 散 列 表 的 符号 表 实 


现 。TreeMap 没有 直接 支持 rank() 、select() 和 我 们 的 有 序 符号 表 API 中 的 一 些 其 他 方法 ,但 它 
效 实现 这 些 方法 的 操作 。HashMap 和 我 们 的 LinearProbingHashsT 的 实现 基本 相 


支持 一 些 能 够 高 
它 也 会 动态 调整 数组 的 大 小 来 保持 使 用 率 大 约 不 超过 75%。 


同 


为 了 保持 前 后 一 致 ， 我 们 在 本 书 中 一 般 会 使 用 3.3 节 中 基于 纪 


线性 探测 法 的 符号 表 。 为 了 节省 篇 幅 并 保证 符号 表 的 用 例 和 
将 使 用 ST 来 代替 有 序 符号 表 RedB1ackBST， 


HashST 来 代替 有 序 性 操作 无 关 紧 要 且 


[ 黑 树 的 符号 表 或 是 3.4 节 中 基于 
具体 实现 的 独立 性 ， 我 们 在 调用 代码 中 


有 散 列 函 


数 的 LinearProbingHashST。 尽管 我 们 知道 某 些 应 用 可 能 需要 改变 或 者 扩展 这 些 算法 和 数据 结构 ， 


我 们 仍然 要 这 样 约定 。 你 应 该 使 


j 哪 种 符号 表 ? 随便 ， 只 要 记得 测试 你 的 选择 是 否 能 够 提供 所 需要 


的 性 能 就 好 。 
3.5.2 ”集合 的 API 

某 些 符号 表 的 用 例 不 需要 处 理 值 , 它们 只 需要 能 够 将 键 插入 表 中 并 检测 一 个 键 在 表 中 是 否 存 在 。 
因为 我 们 不 允许 重复 的 键 ， 这 些 操作 对 应 着 下 面 这 组 API ( 表 3.5.2 ) ， 它 们 只 处 理 表 中 所 有 键 的 集 


合 ， 和 相应 的 值 无 关 。 
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表 3.5.2 集合 数据 类 型 的 一 组 基本 API 


public class SET<Key> 
SET() 创建 一 个 空 的 集合 
void add(Key key) 将 键 key 加 入 集合 
void delete(Key key) 从 集合 中 删除 键 key 
boolean contains(Key key) 键 key 是 否 在 集合 之 中 
boolean isEmpty() 集合 是 否 为 空 
int size() 集合 中 键 的 数量 
String toStringO) 对 象 的 字符 串 表示 


只 要 忽略 键 关 联 的 值 或 者 使 用 一 个 简 
单 的 类 进行 封装 ， 你 就 可 以 将 任何 符号 表 
的 实现 变 成 一 个 SET 类 的 实现 (请 见 练习 
3.5.1 至 练习 3.5.3 ) 。 

用 并 (union) 、 交 (intersection ) 、 
补 (complement ) 和 其 他 数学 集合 的 操作 
扩展 SET 类 需要 的 API 更 复杂 ( 例如， 
complement 操作 需要 先 定义 所 有 可 能 的 键 
的 集合 ) , 使 用 的 算法 也 更 有 趣 , 练习 3.5.17 
会 讨论 它们 。 

基于 符号 表 ST，SET 类 分 有 序 和 无 序 
两 个 版 本 。 如 果 键 都 是 Comparable 的 ， 
我 们 可 以 为 有 序 的 键 定义 minO 、max() 、 
floor()、 ceiling()、 deleteMin().、 
deleteMax()、rank()、select( 以 及 需 


public class DeDup 


; 


pubilueestaeeevondmaamniS tnaunargsy 
HashSET<String> set; 
set = new HashSET<String>() ; 
while (!StdIn.isEmpty©O) 
1 
String key = StdIn.readString() ; 
if (!set.contains(key)) 
长 
set.add(key); 
StdOut.print(key + " " ); 
} 
} 
由 


Dedup 过 滤器 


要 两 个 参数 的 size() 和 get() 方法 来 构成 一 组 完整 的 API。 为 了 遵守 我 们 关于 符号 表 ST 的 约定 ， 
我 们 在 用 例 中 用 SET 表示 有 序 的 集合 ， 用 HashSET 表示 无 序 的 集合 。 

为 了 演示 SET 的 使 用 方法 ， 我 们 来 看 一 组 过 滤器 (filter ) 程序 。 它 会 从 标准 输入 读 取 一 组 字符 
串 并 将 其 中 一 些 写 入 标准 输出 。 这 种 程序 源 自 于 早期 内 存 很 小 无 法 容纳 所 有 数据 的 计算 机 系统 。 它 
们 在 今天 仍 有 用 武之 地 ， 那 就 是 当 你 的 程序 需要 从 网 络 中 获取 输入 时 。 在 例子 中 我 们 使 用 tinyTale. 
txt (请 见 表 3.1.7 ) 作为 输入 。 为 了 保证 可 读 性 ， 我 们 将 输入 中 的 换行 符 保留 到 了 输出 中 ， 不 过 代码 


并 没有 这 人 么 做 。 
3.5.2.1 dedup 
过 滤 需 例子 的 原型 是 一 个 调用 SET 或 者 HashSET 来 去 掉 输入 流 中 的 重复 项 的 程序 ， 一 般 叫 


做 dedup( 如 右 侧 代码 所 示 ) 。 我 们 会 保存 一 个 已 知 字符 串 的 集合 。 如 果 下 一 个 键 已 经 存在 于 集 


合 中 ， 忽 略 之 ;如果 不 在 ， 将 它 加 入 集合 


并 打印 它 。 标 准 输出 中 键 的 顺序 和 它们 在 
标准 输入 中 的 顺序 相同 ， 


% java DeDup < tinyTale.txt 

it was the best of times worst 
age wisdom foolishness 

epoch belief incredulity 


只 是 去 掉 了 重复 
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项 。 这 个 过 程 需 要 的 空间 和 输入 中 不 同 的 
键 的 数量 成 正比 〈 一 般 比 键 的 总 量 要 小 
得 多 ) 。 


season light darkness 
spring hope winter despair 
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3.5.2.2 ”和 白 名 单 和 黑 名 单 本 
pu el |: NGernl ep 
过 滤器 的 另 一 个 经 典 应 用 是 用 一 个 { 


文件 中 保存 的 键 来 判定 输入 流 中 的 哪些 刍 0 
、 i 、 { 
可 以 被 传递 到 输出 流 。 这 个 通用 程序 有 许 HashSET<String> set; 
多 天 然 的 应 用 ， 最 简单 的 例子 就 是 白 名 人 
In in = new InCargs[0]) ; 
单 。 其 中 ， 文 件 中 的 键 被 定义 为 好 键 。 用 
例 可 以 选择 将 所 有 不 在 白 名 单 上 的 键 传递 ‘Set.add(in. readString()); 
while (!StdIn.isEmpty()) 
到 标准 输出 并 忽略 所 有 白 名 单 上 的 键 (就 { 
像 第 1 章 中 我 们 的 第 一 个 程序 处 理 的 那个 ee he 
if (set. tains( d)) 
列子 一样 ) ， 也 可 以 选择 只 将 所 有 在 白 名 a 
单 上 的 键 传递 到 标准 输出 并 忽略 所 有 不 在 } 


白 名 单 上 的 键 〈 如 右 侧 这 段 代码 所 示 ， 使 } 
用 HashSET 实现 的 WhiteFilter ) 。 例 
如 ， 电 子 邮 件 程 序 可 能 会 允许 用 户 通过 这 
样 一 个 过 滤器 指定 朋友 的 邮件 地 址 并 将 所 
有 来 自 其 他 人 的 邮件 当成 垃圾 邮件 。 我 们 % more list.txt 
根据 指定 的 列表 构造 一 个 HashSET， 然 后 was We Wa of 
从 标准 输入 中 读 取 所 有 键 。 如 果 下 个 键 存 % java WhiteFilter list.txt < tinyTale.txt 
在 于 集合 之 中 则 打印 它 ， 否 则 就 忽略 它 。 革 Eo 
黑 名 单 则 与 之 相反 ， 名 单 上 的 所 有 键 都 被 it was the of it was the of 
定义 为 坏 键 。 同 样 ， 黑 名 单 过 滤器 也 有 两 it was the of it was the of 

it was the of it was the of 
种 自然 的 应 用 。 在 电子 邮件 的 例子 中 ,用 
户 可 能 会 指定 一 些 已 知 的 垃圾 邮件 发 送 者 % java BlackFilter list.txt < tnalentt 

best times worst times 
的 地 址 并 要 求 程 序 放 过 所 有 不 是 由 这 些 地 age wisdom age foolishness 
址 发 来 的 邮件 。 我 们 可 以 用 HashSET 实 epoch belief epoch incredulity 
season light season darkness 
现 一 个 BlackFilter， 过 滤 条 件 只 需要 spring hope winter despair 
和 WhiteFilter 相反 即 可 。 实际 应 用 中 ， 
信用 卡 公司 用 黑 名 单 过 滤 被 盗用 的 信用 卡 
号 ， 因 特 网 路 由 器 用 和 白 名 单 来 实现 防火 墙 。 它 们 使 用 的 名 单 可 能 非常 巨大 ， 输 入 无 限 并 且 响 应 时 间 
要 求 非常 严格 。 我 们 已 经 学 习 过 的 符号 表 实 现 能 够 很 好 地 满足 这 些 需 求 。 491 


3.5.3 ”字典 类 用 例 
符号 表 使 用 最 简单 的 情况 就 是 用 连续 的 putQ 〇 操作 构造 一 张 符号 表 以 备 get GO) 查询 。 许 多 应 用 
程序 都 将 符号 表 看 做 一 个 可 以 方便 地 查询 并 更 新 其 中 信息 的 动态 字典 。 以 下 列 出 了 这 类 用 例 中 的 一 些 
常见 例子 。 
口 电话 黄页 。 当 符号 表 中 的 键 是 人 名 而 值 是 电话 号 码 时 ， 这 张 符号 表 就 成 了 一 个 电话 本 。 但 和 
一 本 纸 质 印刷 的 电话 黄页 的 一 个 重大 不 同 是 我 们 可 以 向 其 中 添加 新 的 名 字 或 者 更 新 其 中 的 
电话 号 码 。 我 们 也 可 以 将 电话 号 码 作为 键 而 将 人 名 作为 值 一 一 如 果 你 从 来 没 这 么 做 过 ， 试 着 
在 浏览 器 的 搜索 栏 中 输入 你 的 电话 〈 包 括 区 号 ) 并 搜索 一 下 。 
口 字典 。 将 一 个 单词 和 它 的 含义 关联 起 来 就 得 到 了 “字典 ”。 几 个 世纪 以 来 人 们 都 会 在 家 里 和 
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办 公 室 里 放 一 本 纸 质 的 字典 以 查找 单词 ( 键 ) 的 定义 和 拼写 ( 值 ) 。 现 在 ， 有 了 优秀 的 符号 
表 实 现 ， 人 们 在 电脑 上 可 以 使 用 内 置 的 拼写 检查 咒 并 快速 查 到 单词 的 意义 。 

口 账户 信息 。 如 今 股 民 们 都 会 在 网 上 实时 获取 股票 的 价格 信息 。 这 些 网 络 服务 会 关联 股票 名 称 
( 键 ) 和 当前 价格 〈 值 ) 以 及 丰富 的 其 他 信息 。 类 似 的 商业 应 用 非常 多 ， 比 如 金融 机 构 会 将 
名 字 或 者 账号 与 账户 信息 关联 ， 学 校 会 将 学 生 的 姓名 或 者 学 号 与 他 的 成 绩 关联 ， 等 等 。 

口 基因 组 学 。 在 现代 基因 组 学 中 符号 的 作用 非常 重要 。 最 简单 的 例子 就 是 A、C、T 和 G 这 几 个 
字母 代表 了 活体 组 织 中 DNA 的 四 种 核 背 酸 。 另 一 个 比较 简单 的 例子 是 密码 子 ( 核 并 酸 三 联 体 ) 
和 和 氨基酸 的 对 应 关系 (TTA 表示 亮 氨 酸 ，TCT 表示 丝氨酸 ， 等 等 ) ， 以 及 氨基 酸 序列 和 和 蛋白 
质 之 间 的 对 应 关系 。 基 因 组 学 的 研究 者 每 天 都 需要 使 用 各 种 符号 表 来 组 织 这 些 信息 。 

口 实验 数据 。 从 天 体 物理 学 到 动物 学 ， 现 代 科学 家 被 各 种 实验 数据 包围 着 。 有 效 的 组 织 和 访问 
这 些 信息 才能 理解 它们 的 含义 ， 而 符号 表 正 是 一 个 关键 的 入手 点 。 基 于 符号 表 的 高 级 数据 结 
构 和 算法 如 今 已 经 成 为 科学 研究 的 一 个 重要 部 分 。 

口 编译 器 。 符 号 表 最 早期 的 应 用 之 一 就 是 组 织 程 序 代 码 的 信息 。 最 初 ， 计 算 机 程序 只 是 一 串 简 
单 的 数字 ， 但 程序 员 们 很 快 发 现 使 用 符号 来 表示 操作 和 内 存 地 址 ( 变量 名 ) 要 方便 得 多 。 将 
名 称 和 数字 关联 起 来 就 需要 一 张 符号 表 。 随 着 程序 的 增长 ， 符 号 表 操 作 的 性 能 逐渐 变 成 了 程 

人 序 开发 效率 的 瓶颈 ， 为 此 而 开发 的 数据 结构 和 算法 就 是 我 们 在 本 章 中 学 习 的 内 容 。 


口 文件 系统 。 我 们 都 在 使 用 符号 表 定 期 整理 计算 机 系统 中 的 数据 。 也 许 其 中 最 明显 的 例子 就 是 
文件 系统 了 ， 因 为 是 它 将 文件 名 ( 键 ) 和 文件 内 容 的 地 址 ( 值 ) 关联 起 来 。 音 乐 播放 融 同 样 
使 用 文件 系统 关联 了 歌曲 名 ( 键 ) 和 歌曲 的 位 置 ( 值 ) 。 

口 互联 网 DNS。 域 名 系统 (DNS ) 是 互联 网 信息 组 织 的 基础 ， 它 可 以 将 人 类 能 够 理解 的 
URL ( 键 ， 如 www.princeton.edu 或 是 www.wikipedia.org ) 和 计算 机 网 络 中 路 由 需 能 够 理 
解 的 耳 地 址 ( 值 ， 如 208.216.181.15 或 是 207.142.131.206 ) 关联 起 来 。 这 个 系统 被 称 为 
下 一 代 “ 电 话 黄页 ”。 有 了 它 ， 人 们 就 可 以 使 用 便于 记忆 的 域名 ， 而 机 器 也 可 以 高 效 地 处 
理 对 应 的 数字 。 为 此 , 全 球 互联 网 的 路 由 器 中 每 秒 钟 进行 的 符号 表 查 找 次 数 是 个 天 文 数字 ， 
所 以 性 能 显然 非常 重要 。 每 年 ， 互 联网 上 都 会 新 增 上 百 万 台电 脑 和 其 他 设备 ， 因 此 互联 网 
路 由 器 中 的 符号 表 也 需要 能 够 动态 地 适应 它们 。 

将 以 上 几 个 典型 应 用 总 结 一 下 ， 如 表 3.5.3 所 示 。 


表 3.5.3 典型 的 字典 类 应 用 


应 用 领域 键 值 
电话 黄页 人 名 有 话 号 码 
字典 单词 定义 
账户 信息 账号 余额 
基因 组 密码 子 氨基 酸 
实验 数据 数据 /时 间 实验 结果 
编译 器 变量 名 内 存 地 址 
文件 共享 歌曲 名 计算 机 
DNS 网 站 IP 地 址 


尽管 已 经 涉及 了 许多 领域 ， 表 3.5.3 中 选取 的 仍然 只 是 几 个 有 代表 性 的 例子 来 说 明 符 号 表 应 用 
的 广泛 程度 。 每 当 使 用 一 个 名 称 来 指 代 某 种 东西 时 ， 都 用 到 了 符号 表 。 也 许 你 只 是 用 到 了 计算 机 的 


文件 系统 或 是 互联 网 ， 但 在 某 个 角落 肯 
定 有 一 张 符号 表 在 默默 工作 。 

作为 一 个 具体 的 例子 ， 我们 来 看 
看 一 个 从 文件 或 者 网 页 中 提取 由 各 号 分 
隔 的 信息 ( .csv 文件 格式 ) 的 程序 。 这 
种 格式 存储 的 列表 的 信息 不 需要 任何 专 
用 的 程序 就 可 以 读 取 : 数据 都 是 文本 ， 
每 行 中 各 项 均 由 逗号 隔 开 。 在 本 书 的 
网 站 上 你 会 找到 很 多 .csv 文件 ， 都 和 
我 们 刚才 提 到 过 的 应 用 领域 相关 ， 包 
括 amino.csv ( 密码 子 和 氨基 酸 的 编码 
关系 ) 、DJIA.csv (道琼斯 工业 平均 指 
数 历史 上 每 天 的 开盘 价 、 成 交 量 和 收盘 
价 ) 、ip.csv (DNS 数据 库 中 的 一 部 分 
条 目 ) 和 upc.csy (广泛 用 于 识别 商品 的 
Uniform Product Code 条 形 码 ) ， 如 右 
侧 代 码 框 所 示 。 电 子 表格 等 数据 处 理应 
用 程序 都 能 读 写 .csv 文件 ， 我 们 的 例子 
程序 说 明 你 也 能 够 编写 Java 程序 来 根据 
需要 人 处理 这 些 数据 。 

下 页 的 LookupCSV 根据 命令 行 指 
定 的 文件 中 的 数据 构建 了 一 组 键 值 对 ， 
并 会 打印 出 由 标准 输入 读 取 的 键 对 应 的 
值 。 命 令 行 参数 包括 一 个 文件 名 和 两 个 
整数 , 分 别 用 来 指定 键 和 值 所 在 的 位 置 。 

这 个 例子 的 目的 在 于 展示 符号 表 
的 作用 和 灵活 性 。 哪 个 网 站 的 也 地址 
是 128.112.136.35 ? www.cs.princeton. 
edu; 哪 种 氨基 酸 对 应 着 密码 子 TCA ? 
丝氨酸 ; DJIA 在 1929 年 10 月 29 号 的 
价格 是 多 少 ? 252.38; 哪 种 商品 的 条 
形 码 是 0002100001086 ? 卡 夫 芝 士 粉 
( Kraft Parmesan ) 。 有 了 LookupCSV 
和 合适 的 .csv 文件 ， 可 以 轻易 查 到 这 类 
问题 的 答案 。 

在 处 理 交 互 性 的 查询 时 ， 性 能 一 般 
都 不 是 问题 ( 因为 你 的 计算 机 在 你 打字 
的 工夫 就 能 检索 上 百 万 条 信息 ) ， 所 以 
在 使 用 LookupCSV 时 符号 表 的 高 效 性 并 
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% more amino.csv 
TTT,Phe,F,Phenylalanine 
TTC, Phe,F,Phenylalanine 
TTA, Leu,L,Leucine 
TTG, Leu,L,Leucine 
TCT, Ser,S, Serine 
TCC, Ser,S, Serine 


GAA,Gly,G,Glutamic Acid 
GAG,Gly,G,Glutamic Acid 
GCT,Gly,G,Glycine 
GCC,Gly,G,Glycine 
GCA,Gly,G,Glycine 
GGG,Gly,G,Glycine 


% more DJIA.csv 


20-0ct-87,1738.74,608099968,1841.01 
19-0Oct-87,2164.16,604300032,1738.74 
L600 87 23555 09 33850000082246873 
15-Oct-87,2412.70,263200000,2355.09 


300c6t 2952308985107300005258547 
29 0GE 220900252038m10410000%230R07 
28-Oct-29,295.18,9210000,260.64 
25 0ct 299299847959200005301522 


% more ip.csv 


www.ebay.com,66.135.192.87 
www.princeton.edu,128.112.128.15 
www.cs.princeton.edu,128.112.136.35 
www.harvard.edu,128.103.60.24 
www.yale.edu,130.132.51.8 
www.cnn.com,64.236.16.20 
www.google.com,216.239.41.99 
www.nytimes.com,199.239.136.200 
www.apple.com,17.112.152.32 
www.slashdot.org,66.35.250.151 
www.espn.com,199.181.135.201 
www.weather .com,63.111.66.11 
www.yahoo.com,216.109.118.65 


% more UPC.csv 


0002058102040,,"1 1/4"" STANDARD STORM DOOR" 
000205810Z2O57 T/A SUTANDARDESTORMIDOORS 
0002058102125,,"DELUXE STORM DOOR UNIT" 
0002082012728,"100/ per box","12 gauge shells" 
0002083110812,"Classical CD","'Bits and Pieces'" 
002083142882,CD,"Garth Brooks - Ropin' The Wind” 
0002094000003,LB,"PATE PARISIEN” 
0002098000009,LB,"PATE TRUFFLE COGNAC-M&H 8Z RW" 
0002100001086,"16 oz","Kraft Parmesan" 
0002100002090,"15 pieces","Wrigley's Gum" 
0002100002434,"0One pint","Trader Joe's milk" 


4 型 的 含有 由 逗号 分 隔 的 值 的 文件 (.csv) 


不 明显 。 但 是 当 程 序 需 要 进行 ( 大 量 的 ) 查找 时 ， 符 号 表 的 性 能 就 很 重要 了 。 例 如 ， 互 联网 上 的 一 
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台 路 由 器 每 秒 钟 可 能 需要 查找 上 百 万 个 卫 地 址 。 在 本 书 中 ， 我 们 已 经 通过 FrequencyCounter 看 
到 了 高 性 能 的 必要 性 ， 在 本 节 中 你 还 会 看 到 其 他 几 个 例子 。 

练习 里 有 几 个 更 加 复杂 的 处 理 .csv 文件 的 测试 用 例 。 例 如 ， 我 们 可 以 将 一 个 字典 动态 化 ， 允 
许 它 接受 从 标准 输入 中 得 到 的 指令 来 改变 一 个 键 的 值 ， 或 是 为 它 添加 范围 查找 的 功能 ,或 者 我 们 
可 以 为 同一 个 文件 构造 多 个 字典 。 


字典 的 查找 


public class LookupCSV 
t 
public static void main(String[] args) 


{ 


In in = new In(args[0]); 
int keyField = Integer.parseInt(args[1]); 
int valField = Integer.parseInt(args[2]); 
ST<String, String> st = new ST<String, String>QO; 
while (in.hasNextLine()) 

String line = in.readLine(); 

String[] tokens = line.splitC “,” ); 

String key = tokens[keyField]; 

String val = tokens[valField]; 

st.put(key, val); 


} 

while (!StdIn.isEmpty()) 

{ 
String query = StdIn.readString() ; 
if (st.contains(query)) 

StdOut.println(st.get(query)); 
} 
} 
} 


这 段 数 据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打印 出 相应 的 值 。 其 
中 键 和 值 都 是 字符 串 ， 键 和 值 所 在 的 位 置 由 命令 行 参 数 指定 。 


% java LookupCSV ip.csv 1 0 % java LookupCSV amino.csv 0 3 
T2812 S08 35 GE 

www.cs.princeton.edu Serine 

% java LookupCSV DJIA.csv 0 3 % java LookupCSV UPC.csv 0 2 

2 ee=2e) 0002100001086 

2B0a07 Kraft Parmesan 


3.5.4 索引 类 用 例 

字典 的 主要 特点 是 每 个 键 都 有 一 个 与 之 关联 的 值 ， 因 此 基于 关联 型 抽象 数组 来 为 一 个 键 指定 一 
个 值 的 符号 表 数 据 类 型 正 合适 。 每 个 账号 都 唯一 地 表示 一 个 客户 ,每 个 条 但 都 唯一 地 表示 一 种 商品 ， 
等 等 ,。 但 一 般 说 来 , 一 个 给 定 的 键 当 然 有 可 能 和 多 个 值 相关 联 。 例如 , 在 我 们 的 amino.csv 的 例子 中 ， 
每 个 密码 子 都 对 应 着 一 种 氨基 酸 , 但 一 种 氨基 酸 有 可 能 对 应 着 多 个 密码 子 。 如 下 页 的 aminol.txt 所 示 ， 


3.5 应 用 二 319 


文件 的 每 一 行 都 包含 一 个 氨基 酸 和 它 对 应 的 多 个 密码 子 。 aminoI.txt 
我 们 使 用 索引 来 描述 一 个 键 和 多 个 值 相关 联 的 符号 Pe 


乾 ， 下 面 是 更 多 的 例子 。 Aspartic Acid,GAT,GAC 
Cysteine,TCT,TGCC 

口 商业 交易 。 公 司 使 用 客户 账户 来 跟踪 一 天 内 所 有 交 Glutamic Acid,GAA,GAG 
Glutamine,CAA,CAG 


易 的 一 种 方法 是 为 当日 所 有 交易 建立 一 个 索引 1, 其 Glycine, GGT,GGC, GGA, GGG 


、 、 lyene " ”分 隔 符 
中 键 是 客户 的 账号 , 值 是 和 该 账号 有 关 的 所 有 交易 。 HistidineiCAT SAG 
Isoleucine,ATT,ATC,ATA 
口 网 络 搜索 。 当 你 输入 一 个 关键 字 并 得 到 一 系列 含 Leucine, TTA, TTG, CTT, CTC, CTA, ‘CTG 


Lysine,AAA,AAG 


有 这 个 关键 字 的 网 站 时 ， 你 就 是 在 使 用 网 络 搜索 Methionine,ATG 


互 | 辫 个 | 理 矢 二 合作 如 py \ Hy Wh Phenylalanine,TTT,TTC 
引擎 创建 的 索引 。 每 个 键 (查询 ) 都 关联 着 一 人 es 


值 (一 组 网 页 ) ， 当 然 实 际 情况 会 更 加 复杂 ， Serine, TCT, TCA, TCG, AGT, AGC 
SN es Stop, TAA, TAG, TGA 
为 我 们 经 常会 指定 多 个 关键 字 。 Threonine, ACT, ACC, ACA, ACG 


口 电 影 和 演员 。 本 书 网 站 上 的 moviestxt 来 自 于 了 rosine'TATTAC 
IMDB ( 互联 网 电影 数据 库 ) 。 每 一 行 都 含有 一 部 Valine, GTT, GTC, GTA, GTG 
电影 的 名 称 ( 键 ) ， 随 后 是 在 其 中 出 演 的 演员 列 
表 ( 值 ) ， 用 斜 杠 分 隔 ， 如 图 3.5.2 所 示 。 
将 每 个 键 关联 的 所 有 值 都 放 入 一 个 数据 结构 中 ( 比如 
一 个 Queue ) 并 用 它 作为 值 就 可 以 轻松 构造 一 个 索引 。 根 据 这 一 点 来 扩展 LookupCSV 很 简单 ， 我 们 
将 它 留 作 一 道 练 习 (请 见 练习 3.5.12 ) 。 这 里 我 们 看 一 下 LookupIndex， 它 能 够 从 一 个 文件 ， 例 如 
aminol.txt 或 movies.txt ( 分 隔 符 不 一 定 和 .csv 文件 一 样 必须 是 逗号 ， 但 需要 能 够 从 命令 行 指定 ) ， 
构造 一 个 索引 。 构 造 完成 后 LookupIndex 能 够 接受 查询 并 打印 出 键 对 应 的 所 有 值 。 更 有 意思 的 是 
LookupIndex 也 会 为 每 个 文件 构造 一 个 反 向 索引 , 也 就 是 将 键 和 值 的 角色 互 换 。 在 氨基 酸 的 例子 中 ， 
它 的 功能 相当 于 LookupCSV( 找到 给 定 密码 子 所 对 应 的 氨基 酸 ) 。 在 电影 和 演员 的 例子 中 ， 它 使 我 
们 能 够 找到 一 个 演员 出 演 过 的 所 有 电影 。 这 项 信息 隐藏 于 数据 当中 ， 但 没有 符号 表 我 们 就 很 难 获取 
它 。 请 仔细 研究 这 个 例子 ， 因 为 它 深刻 地 揭示 了 符号 表 的 本 质 特 征 。 
表 3.5.4 总 结 了 典型 的 索引 类 应 用 的 符号 表 中 键 值 的 对 应 情况 。 


键 多 个 值 
一 个 小 型 索引 文件 (20 行 ) 


UD 


表 3.5.4 典型 的 索引 类 应 用 


应 用 领域 键 值 应 用 领域 键 值 
基因 组 学 氨基 酸 一 系列 密码 子 网 络 搜索 关键 字 一 系列 网 页 
商业 交易 账号 一 系列 交易 IMDB 电影 一 系列 演员 
movies. txt 本 
"/" 分 隔 符 


Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... 2 
Tirez sur le pianiste (1960)/Heymann, Claude/... 

Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/... 
Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/... 

To Be or Not to Be (1942)/Verebes, Erne (1)/... 

To Be or Not to Be (1983)/.../Brooks, Mel (I)/... 

To Catch a Thief (1955)/Paris, Manuel/... 

To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/... 


键 多 不 什 A 


到 3.5.2 ”一 个 巨型 索引 文件 〈250 000 多 行 ) 的 一 小 部 分 497 
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反 向 索引 
反 向 索引 一 般 是 指 用 值 来 查找 键 的 操作 ， 比 如 我 们 有 大 量 的 数据 并 且 和 希望 知道 某 个 键 都 在 哪些 

地 方 出 现 过 。 这 是 男 一 种 符号 表 的 典型 用 例 ， 它 会 进行 一 系列 get() 和 putQ 〇 的 混合 调用 。 和 以 

前 一 样 ， 我 们 将 每 个 键 和 一 个 SET 类 型 的 值 关 联 起 来 ， 这 个 值 中 包含 了 该 键 出 现 的 所 有 位 置 。 位 置 

信息 的 性 质 和 用 途 取 决 于 应 用 场景 : 在 一 本 书 中 ,位 置 可 能 是 书 的 页 码 ; 在 一 段 程序 中 ， 位 置 可 能 

是 代码 的 行 号 ; 在 基因 组 中 ,位 置 可 能 是 一 段 基因 序列 的 某 个 位 点 ， 等 等 。 

口 互联 网 电影 数据 库 ( IMDB ) 。 在 上 文 的 例子 中 ,输入 是 将 每 部 电影 和 它 的 演员 关联 起 来 的 

一 个 索引 。 它 的 反 向 索引 则 会 将 每 个 演员 和 他 出 演 过 的 所 有 电影 相关 联 。 

口 图 书 索引 。 每 本 教科 书 都 会 有 一 个 索引 。 你 能 在 其 中 查找 到 一 个 术语 和 它 出 现 过 的 所 有 页 码 。 
创建 优秀 的 索引 当然 需要 作者 的 努力 来 去 掉 常 见 和 无 关 的 词语 ， 但 文档 处 理 系统 能 够 使 用 符 
号 表 将 整个 过 程 自动 化 。 一 种 有 趣 的 特殊 情况 叫做 对 照 索引 (concordance) ， 它 会 给 出 每 
个 单词 在 书 中 出 现 的 所 有 位 置 (请 见 练习 3.5.20 ) 。 

口 编译 器 。 在 一 个 使 用 了 许多 符号 的 庞大 程序 中 ， 能 够 知道 每 个 名 称 的 使 用 位 置 很 有 帮助 。 在 
以 前 ， 一 张 打印 的 以 追踪 各 个 符号 在 程序 中 使 用 位 置 的 符号 表 曾 经 是 程序 员 最 重要 的 工具 之 
一 。 在 现代 计算 机 系统 中 ， 符 号 表 是 程序 员 用 来 管理 各 种 名 称 的 工具 软件 的 基础 。 

口 文件 搜索 。 现 代 操 作 系统 都 提供 了 根据 关键 字 搜 索 文 件 的 功能 。 对 于 这 个 索引 ， 键 就 是 关键 

字 ， 值 则 是 含有 该 关键 字 的 所 有 文件 的 集合 。 

口 基因 组 学 。 基 因 组 学 研究 中 的 一 个 典型 (或许 有 些 过 于 简化 了 ) 情况 是 科学 家 希望 
知道 一 个 给 定 的 核 苷 酸 序列 在 一 个 基因 或 者 一 组 基因 中 的 位 置 。 某 些 特定 序列 或 者 
近似 序列 的 存在 也 许 都 有 重大 的 意义 。 这 种 研究 首先 就 需要 一 个 序列 和 基因 的 对 
照 索引 ,但 也 需要 一 些 修改 ， 因 为 基因 是 无 法 像 句 子 一 样 被 切 分 为 单词 的 (请 见 练 
HIS1S)s 

常见 反 向 索引 用 例 的 符号 表 的 键 值 对 应 情况 如 表 3.5.5 所 示 。 


表 3.5.5 ”典型 的 反 向 索引 


应 用 领域 键 值 

IMDB 演员 一 系列 电影 
图 书 术语 一 系列 页 码 
编译 髓 标识 符 一 系列 使 用 位 置 
文件 搜索 关键 字 文件 集合 
基因 组 学 基因 片段 一 系列 位 置 


索引 《以 及 反 向 索引 )〉 的 查找 


public class LookupIndex 
{ 
public static void main(String[] args) 
{ 
In in = new In(args[0]); // (索引 数据 库 ) 
String sp = args[1]; // (分 隔 符 ) 
ST<String, Queue<String>> st = new ST<String，Queue<String>>() ; 
ST<String, Queue<String>> ts = new ST<String，Queue<String>>() ; 
while (in.hasNextLine()) 


3.5 


{ 
String[] a = in.readLine().split(sp); 
String key = a[0]; 
for (int i1 = 1; i < a.length; i++) 
{ 


String val = a[il]; 


if (!st.contains(key)) st.put(key, 


% java LookupIndex aminoI. 


Serine 


txt "," 


new Queue<String>()) ; TET 
if (!ts.contains(val)) ts.put(val, TCA 
new Queue<String>()); Te 
st.get(key).enqueue(val); AGT 
ts.get(val).enqueue(key); ACC 
TCG 
} Serine 
} 
while (!StdIn.isEmptyO) % java LookupIndex movies.txt "/" 
{ Bacon, Kevin 
String query = StdIn.readLine(); Mystic River (2003) 
if (st.contains(query)) Friday the 13th (1980) 
for (String s : st.get(query)) Flatliners (1990) 
StdOut.print1inC" " + s); Few Good Men, A (1992) 
j Cts.containsCquery)) Tin Men (1987) 
for (String s : ts.get(query)) Blumenfeld, Alan 
StdOut.printin(" " + s); DeBoy, David 
} 加 


} 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打印 出 相应 的 值 。 其 
中 键 为 字符 串 ， 值 为 一 列 字 符 串 ， 分 隔 符 由 命令 行 参 数 指定 。 
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下 面 的 FileIndex 从 命令 行 接受 多 个 文件 名 并 使 用 一 张 符号 表 来 构造 一 个 反 向 索引 ， 它 能 够 
将 任意 文件 中 的 任意 一 个 单词 和 一 个 出 现 过 这 个 单词 的 所 有 文件 的 文件 名 构成 的 SET 对 象 关联 起 
来 。 在 接受 标准 输入 的 查询 时 ， 输 出 单词 对 应 的 文件 列表 。 这 个 过 程 与 工具 软件 在 网 络 上 或 是 在 你 
的 计算 机 上 查找 信息 的 过 程 类 似 ， 即 根据 输入 的 关键 字 得 到 所 有 该 关键 字 出 现 过 的 位 置 。 这 类 工具 
的 开发 者 一 般 会 在 下 面 几 点 上 下 工夫 来 改进 这 个 过 程 : 
口 查询 形式 ; 
口 被 索引 的 文件 或 网 页 的 集合 ; 
口 文件 或 网 页 在 结果 中 的 排列 顺序 。 

例如 ， 你 肯定 已 经 习惯 了 在 网 络 搜索 引擎 〈 它们 的 基础 都 是 将 网 络 上 的 大 部 分 页 面 进行 索引 ) 
的 查询 中 输入 多 个 关键 字 进 行 查找 ， 并 得 到 一 组 按照 相关 性 或 者 重要 性 ( 对 于 你 或 是 对 于 广告 商 而 
言 ) 由 高 到 低 排序 的 结果 。 本 节 最 后 的 练习 中 讨论 了 这 里 的 一 些 改进 。 我 们 会 在 以 后 学 习 和 网 络 搜 
索 有 关 的 各 种 算法 ， 但 符号 表 仍 然 会 是 整个 过 程 的 核心 工具 。 

和 LookupIndex 一 样 ， 你 也 应 该 从 本 书 的 网 站 上 下 载 FileIndex 并 用 它 来 为 你 的 电脑 上 的 一 
些 文件 或 是 你 感 兴趣 的 一 些 网 站 建立 索引 ， 从 而 更 好 地 理解 符号 表 的 使 用 。 你 将 会 发 现 即 使 是 根据 
巨型 文件 构造 庞大 的 索引 ， 这 个 工具 的 耗 时 也 不 多 ， 因 为 每 个 put (0) 操作 和 get 0 请求 的 处 理 都 
非常 快 。 确 保 巨 型 的 动态 索引 实现 即时 响应 是 算法 技术 的 重要 胜利 之 一 。 


言 ) 
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文件 索引 


import java.io.File; 
public class FileIndex 


{ 
public static void main(String[] args) 
{ 
ST<String, SET<File>> st = new ST<String, SET<File>>O; 
for (String filename : args) 
{ 
File file = new File(filename); 
In in = new In(file); 
while (!in.isEmptyO)) 
{ 
String word = in.readString() ; 
if (!st.contains(word)) st.put(word, new SETTSile>()); 
SET<File> set = st.get(word); 
set.add(file); 
} 
} 
while (!StdIn.isEmpty©O) 
{ 
String query = StdIn.readString() ; 
if (st.contains(query)) 
for (File file : st.get(query)) 
StdOut.printlin(" " + file.getName()); 
} 
} 
} 


这 段 符号 表 用 例 能 够 为 一 组 文件 创建 索引 。 我 们 将 每 个 文件 中 的 每 个 单词 都 记录 在 符号 表 中 并 维护 
一 个 SET 对 象 来 保存 出 现 过 该 单词 的 文件 。In 对 象 接受 的 名 称 也 可 以 是 网 页 ， 因 此 这 段 代 码 也 可 以 用 来 
为 一 组 网 页 创建 反 向 索引 。 


% java FileIndex ex*.txt 


% more exl1.txt age 

it was the best of times exe Sixt 
ex4.txt 

% more ex2.txt De 

it was the worst of times nil Ee 

% more ex3.txt wes 

it was the age of wisdom ex1. txt 
ex2 .txt 

% more ex4.txt ex3.txt 

it was the age of foolishness ex4.txt 


S01 


3.5.5 ” 稀 琉 向 量 

下 面 这 个 例子 展示 的 是 符号 表 在 科学 和 数学 计算 领域 所 起 到 的 重要 作用 。 我 们 会 考察 一 种 重要 
而 常见 的 计算 ， 它 在 典型 的 实际 应 用 中 党 党 是 性 能 的 瓶颈 ， 然 后 我 们 会 演示 符号 表 如 何 解决 这 个 瓶 
颈 并 能 够 处 理 规模 大 得 多 的 问题 。 实 际 上 ， 这 个 计算 正 是 S. Brin 和 LL. Page 发 明 的 PageRank 算法 
的 核心 ， 这 个 算法 在 2000 年 左右 造就 了 Google ( 它 同 时 也 是 一 个 著名 的 数学 抽象 模型 ， 在 很 多 其 


人 


a[][] x[] b[] 

0:90 0 0 00135205 .036 
0 0 .36 .36 .18| | .04 .297 
0 0 0.90 0||.36 加 333 
90 0 0 0 0||.37 .045 
.47 0.47 0 0 19 1927 


图 3.5.3 ”矩阵 和 向 量 的 乘法 
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他 场景 中 都 会 用 到 ) 。 

我 们 要 考察 的 简单 计算 就 是 矩阵 和 向 量 的 
乘法 〈 如 图 3.5.3 所 示 ) : 给 定 一 个 矩阵 和 一 个 
向 量 并 计算 结果 向 量 ， 其 中 第 i 项 的 值 为 和 矩阵 
的 第 i 行 和 给 定 的 向 量 的 点 乘 。 为 了 简化 问题 ， 
我 们 只 考虑 NN 行 N 列 的 方 阵 ， 向 量 的 大 小 也 为 
NN。 在 Java 中 , 用 代码 实现 这 种 操作 非常 简单 ， 
但 所 需 的 时 间 和 N 成 正比 ， 因 为 Y 维 结果 向 量 
中 的 每 一 项 都 需要 计算 N 次 乘法 。 因 为 需要 存 


储 整个 和 矩阵， 计算 所 需 的 空间 也 入 成 正比 。 实 现代 码 如 下 所 示 。 


在 实际 应 用 中 ,NN 往往 非常 巨大 。 例 如 ， 在 刚才 提 到 的 Google 的 应 用 中 ,NN 等 于 互联 网 中 所 


有 网 页 的 总 数 。 在 PageRank 算法 发 明 的 时 
候 ， 这 个 数字 大 概 在 百 亿 到 千 亿 之 间 ， 但 之 
后 一 直 在 暴 增 。 因 此 ，N 的 值 应 该 远 远大 于 
10”。 没 人 能 够 负担 起 这 么 多 内 存 和 时 间 来 进 
行 这 种 计算 ， 所 以 我 们 需要 更 好 的 算法 。 
幸好 ， 这 里 的 矩阵 常常 是 黎 芍 的 ， 即 其 
中 大 多 数 项 都 是 0。 实 际 上 ， 在 Google 的 应 
和 中， 每 行 中 的 非 零 项 的 数量 是 一 个 较 小 的 
常数 : 每 个 网 页 中 指向 其 他 页 面 的 链接 其 实 
都 很 少 ( 相 比 互 联网 中 所 有 网 页 的 总 数 而 言 )。 
因此 ， 我 们 可 以 将 这 个 矩阵 表示 为 由 稀 朴 向 
量 组 成 的 一 个 数组 ， 使 用 HashsT 的 稀 下 向 量 
实现 如 下 面 的 SparseVector 所 示 。 


能 够 完成 点 乘 的 稀 玻 向 量 


double[][] a = new double[N][N]; 
double[] x = new double[N] ; 
double[] b = new double[N] ; 


// 初始 化 a[] [] 和 x[] 


for (int 1 = 0; i < N; i++) 
SU LDL 
ForEGini 亲 0 Nn 
sum += a[i][j]*x[j]; 
ol = Ss 


} 


和 矩阵 和 向 量 相 乘 的 标准 实现 


public class SparseVector 

{ 
private HashST<Integer, Double> st; 
public SparseVector() 


{ st = new HashST<Integer, Double>Q; 


public int size() 

{ return st.size(); } 

public void put(int 1i, double x) 

{ st.put(i, x); +} 

public double get(int 1) 

{ 
if (!st.contains(i)) return 0.0; 
else return st.get(i); 


} 
public double dot(double[] that) 


double sum = 0.0; 
for (int i : st.keysO) 


sum += that[i]*this.get(i); 


return sum; 


} 
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这 个 符号 表 的 | 
和 另 一 个 向 量 中 对 应 : 


j 例 实现 了 稀 琉 向 量 


的 主要 功能 


高 效 完成 了 点 乘 操 作 。 我 们 将 一 个 向 量 中 的 每 一 项 
项 相 乘 并 将 所 有 结果 相 加 ， 所 需 的 乘法 操作 数量 等 于 稀 琉 向 量 ] 


的 非 零 项 的 数目 。 


稀 艳 矩阵 的 表示 如 图 3.5.4 所 示 。 


double[] 对象 的 数组 SparseVector 对 象 的 数组 
0 nl 2 3 4 
0.0| .9010.010.010.0 
0 1 3 4 
有 0.0| 0.0 .36| .18 
0 0 
1 0 1 py 3 4 1 
2| 上 ,|io.010.010.01 .9010.0 2 
3 3 
; I 0 1 2 3 人 Ne 
.90| 0.0| 0.01 0.01 0.0 
0 1 2 3 4 
.45 | 0.0 0.0 | 0.0 st、 
of .45 | [21 .45 
上 [5] [3 
a[41[21 
图 3.5.4 ” 稀 玻 和 矩阵 的 表示 


这 里 我 们 不 再 使 用 a[i] [j] 来 访 


和 矩阵 和 向 量 的 乘法 上 


所 需 的 时 间 仅 和 NN 加 上 和 矩阵 中 的 非 零 元 素 的 数量 成 正比 。 


虽然 对 于 较 小 或 是 不 那么 稀 玻 的 矩阵 ， 使 用 符号 表 的 代价 可 
于 巨型 稀 下 矩阵 的 意义 。 为 了 更 好 
一 样 ) ，V 可 


也 谨 明 这 一 点 ， 六 


问 和 矩阵 中 第 i 行 第 j 列 的 元 素 ， 而 是 使 用 a[i] .put(j， 
来 表示 和 矩阵 中 的 值 并 使 用 a[i] .get(j) 来 获取 它 。 从 下 面 这 段 代码 可 以 


val) 


看 到 ， 用 这 种 方式 实现 的 


数组 表示 法 的 实现 更 简单 〈 也 能 更 清晰 地 描述 乘法 的 过 程 ) 。 


合 已 E 常 高 = 
能 会 非常 高 昂 ， 


及 想 一 个 超大 的 应 用 ( 就 像 Brin 和 Page 面 对 的 
能 超过 100 亿 或 者 1000 亿 而 平均 每 行 中 的 非 零 元 素 小 于 10。 对 于 这 种 应 用 ， 使 


更 重要 的 是 ， 它 


sp 


但 你 应 该 理解 它 对 


用 符号 表 能 够 将 矩阵 和 向 量 乘法 的 速度 提升 10 亿 倍 甚至 更 多 。 这 种 应 用 虽然 简单 但 非常 重要 ， 不 


愿意 挖掘 其 中 省 时 和 省力 的 潜力 的 程序 员 解 决 实际 问题 能 力 的 潜力 也 必然 是 有 限 的 ， 


提升 几 十 亿 倍 的 程序 员 勇 于 面 对 看 似 无 法 解决 的 问题 。 


构造 Google 所 使 
的 稀 玖 矩阵。 有 了 这 个 矩阵 ，PageRank 算法 的 计算 meni 中 


汤 
所 保证 的 ) 。 


在 许 


来 保证 不 会 错过 类 似 的 改进 机 会 
此 像 例 子 中 那样 用 数组 来 保存 窗外 


进 几 百 或 者 几 千 亿 倍 ， 其 


因此 ， 使 用 一 


用 的 和 矩阵 是 一 


种 图 的 应 


j ( 当然 也 是 符号 表 的 一 种 应 


j 结 果 向 量 取代 计算 所 使 用 的 向 量 ， 重 复 这 个 欠 代 过 程 直到 收敛 ( 


它们 的 运行 瓶颈 从 而 选择 合适 的 数据 类 型 实现 。 


点 是 


j) ， 
量 之 间 的 乘法 运算 ,不 
由 概率 论 的 基础 定理 


尽 


管 是 一 个 巨型 


能 够 将 运行 速度 


个 类 似 于 SparseVector ee 序 所 需 的 空 
至 更 多 。 
多 科学 计算 中 类 似 的 改进 都 是 可 能 的 ， 因 此 稀 玻 向 量 和 矩阵 的 应 用 十 分 广泛 ， 并 
会 被 集成 到 科学 计算 专用 的 库 中 。 在 处 理 庞 大 的 向 量 或 矩阵 的 时 候 ， 你 最 好 用 一 些 简单 的 性 外 


。 男 外 ， 大 多 数 编程 语言 都 拥有 处 理 原 始 数 据 类 型 数组 的 


3 间 和 时 间 改 


且 一 般 都 
测试 
能 力 ， 


的 向 量 也 许 能 提供 更 好 的 性 能 。 对 于 这 些 应 用 ， 有 必要 深入 了 解 
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符号 表 之 所 以 是 算法 技术 为 现代 计算 机 基础 设施 建 
设 的 一 大 重要 贡献 ， 是 因为 在 很 多 实际 应 用 中 它 都 能 够 SparssVyector 间 a 
节省 大 量 的 运行 成 本 ， 使 得 各 个 领域 内 许多 原来 完全 无 a = new SparseVector[N]; 

、 i 机 double[] x = new double[N]; 

法 想象 的 问题 的 解决 成 为 可 能 。 科 学 或 是 工程 领域 能 够 double[] b = new double[N]; 
将 运行 效率 提升 一 千 亿 倍 的 发 明 极 少 一 一 我 们 已 经 在 几 
个 例子 中 看 到 ， 符 号 表 做 到 了 ， 并 且 这 些 改 进 的 影响 非 ] 二 和 
常 深远 。 但 我 们 学 习 过 的 数据 结构 和 算法 的 演化 并 没有 


one ON 


结束 : 它们 才 出 现 了 几 十 年 ， 我们 也 并 没有 完全 了 解 它 b[i] = ari].dotCx); 

们 的 性 质 。 鉴 于 它们 的 重要 性 ， 符 号 表 的 各 种 实现 仍然 

是 全 球 学 者 的 研究 热点 。 随 着 它 的 应 用 范围 不 断 扩展 ， 稀疏 矩阵 和 向 量 的 乘法 2 

我 们 会 在 更 多 领域 看 到 它 的 新 发 展 。 SD 
图 答疑 


问 SET 能 够 包含 nu11 吗 ? 

答 不 行 。 和 符号 表 一 样 ， 键 必须 是 非 空 的 对 象 。 

问 ”SET 可 以 是 nul1l1 吗 ? 

答 不 行 。 一 个 SET 集合 可 以 是 空 的 (不 包含 任何 对 象 ) ,但 不 能 为 nu11。 和 Java 的 其 他 数据 类 型 一 样 ， 
一 个 SET 类 型 的 变量 的 值 可 以 是 nu11， 但 这 仪 仅 意 味 着 它 没有 指向 任何 SET 对 象 。 对 SET 使 用 new 
的 结果 必然 是 一 个 非 空 的 对 象 。 

问 ”如 果 能 够 将 所 有 数据 都 存储 在 内 存 中 ， 那 就 没有 必要 使 用 过 滤器 了 ， 对 吗 ? 

答 是 的 。 过 滤器 最 大 的 用 处 在 于 处 理 输入 数据 量 未 知 的 情况 。 在 其 他 情况 下 ， 它 可 能 会 是 一 种 有 用 的 

思维 方式 ， 但 也 不 是 万 能 的 

问 ” 我 在 一 张 电子 表格 中 保存 了 一 些 数据 。 我 需要 开发 一 个 类 似 于 LookupCSyV 的 程序 查找 这 些 数据 吗 ? 

答 ”你 的 电子 表格 程序 应 该 能 够 将 它们 导出 为 .csv 的 文件 ， 这 样 你 就 可 以 直接 使 用 LookupCSV 了 。 

问 FileIndex 程序 有 什么 用 ? 操作 系统 不 能 解决 这 个 问题 吗 ? 

答 如果 操 作 系统 能 够 满足 你 的 需求 ， 当 然 应 该 直接 使 用 它 的 解决 方案 。 和 我 们 的 许多 例子 程序 一 样 ， 
FileIndex 也 是 为 了 向 你 展示 这 些 应 用 程序 的 基本 原理 并 为 你 提供 其 他 的 可 能 性 。 

问 为 什么 SparseVector 的 dot0) 方法 不 接受 一 个 Sparsevector 对 象 作 为 参数 并 返 个 
SparseVector 对 象 ? 


o 


答 ” 这 也 是 一 个 不 错 的 设计 , 它 所 需 的 代码 比 我 们 的 设计 稍稍 复杂 一 些 , 因此 也 是 一 道 不 错 的 编程 练习 ( 请 
见 练习 3.5.16 ) 。 对 于 普通 矩阵 的 处 理 ， 我 们 也 许 还 应 该 再 增加 一 个 SparseMatrix 数据 类 型 。 506 
图 练习 


3.5.1 ”分别 使 用 ST 和 HashST 来 实现 SET 和 HashSET (为 键 关联 虚拟 值 并 忽略 它们 ) 。 

3.5.2 ”删除 SequentialSearchST 中 和 值 相关 的 所 有 代码 来 实现 SequentialSearchSET。 

3.5.3 删除 BinarySearchSsT 中 和 值 相关 的 所 有 代码 来 实现 BinarySearchSET。 

3.5.4 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSsTint 类 和 HashSsTdouble 类 (将 
LinearProbingHashST 中 的 泛 型 改 为 原始 数据 类 型 ) 。 
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3.5.5 分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实 现 STint 类 和 STdouble 类 (将 RedBlackBST 中 
的 泛 型 改 为 原始 数据 类 型 ) 。 用 经 过 修改 的 SparseVector 作为 用 例 测试 你 的 答案 。 
3.5.6 ”分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSETint 类 和 HashSETdouble 类 ( 删 去 你 
为 练习 3.5.4 给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.7 分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 SETint 类 和 SETdouble 类 ( 删 去 你 为 练习 3.5.5 
给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.8 修改 LinearProbingHashST， 人 允许 在 表 中 保存 重复 的 键 。 对 于 get 0 方法 ， 返 回 给 定 键 所 关联 
的 任意 值 ; 对 于 deleteQ 方法 ， 删 除 表 中 所 有 和 给 定 键 相等 的 键 值 对 。 
3.5.9 修改 二 叉 查 找 树 BST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0 方法 , 返回 给 定 键 所 关联 的 任意 值 ; 
对 于 deleteQ 方法 ， 删 除 树 中 所 有 和 给 定 键 相 等 的 结 点 。 
3.5.10 ”修改 红 黑 树 RedBlackBST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0) 方法 ， 
507 任意 值 ; 对 于 deleteQ 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
3.5.11 开发 一 个 和 SET 相似 的 类 MultiSET， 人 允许 出 现 相等 的 键 ， 也 就 是 实现 了 数学 上 的 多 重 集合 。 
3.5.12 修改 LookupCSV, 将 每 个 键 和 输入 中 与 该 键 对 应 的 所 有 值 相关 联 ( 而 非 和 关联 型 抽象 数组 的 一 样 ， 
仅 关 联 最 近 出 现 的 那个 值 ) 。 
3.5.13 ”修改 LookupCSV 为 RangeLookupCSV， 从 标准 输入 接受 两 个 键 并 打印 出 .csv 文件 中 所 有 在 该 范 
围 之 内 的 键 值 对 。 
3.5.14 ”编写 并 测试 方法 invertGO ， 它 接受 参数 ST<String，Bag<String>> 并 返回 给 定 符号 表 的 反 向 
索引 (一 个 相同 类 型 的 符号 表 ) 。 
3.5.15 ”编写 一 个 程序 ， 从 标准 输入 接受 一 个 字符 串 并 从 命令 行 参数 获得 一 个 整数 上 作为 参数 ， 在 标准 
输出 中 有 序 打印 出 在 字符 串 中 找到 的 大 元 文法 (kgram ) ， 以 及 每 个 gram 在 字符 串 中 的 位 置 。 
3.5.16 为 SparseVector 添加 一 个 sum() 方法 ， 接 受 一 个 SparseVector 对 象 作 为 参数 并 将 两 者 相 加 
的 结果 返回 为 一 个 SparseVector 对 象 。 请 注意 : 你 需要 使 用 delete() 方法 来 处 理 向 量 中 的 一 
508 项 变 为 0 的 情况 ( 请 特别 注意 精度 ) 。 


回 给 定 键 所 关联 的 


网 


图 提高 是 


3.5.17 数学 集合 。 你 的 


标 是 实现 表 3.5.6 中 MathSET 的 API 来 处 理 ( 可 变 的 ) 数学 集合 。 


表 3.5.6 一 种 简单 的 集合 数据 类 型 的 API 
Public class MathSET<Key> 


MathSET(Key[] universe) 创建 一 个 集合 
void add(Key key) 将 key 加 入 集合 
所 有 在 Universe 中 并 且 不 在 该 集合 
MathSET<Key> complement() 中 的 键 的 集合 
void union(MathSET<Key> a) 将 a 中 所 有 个 在 该 集合 中 的 键 加 入 该 
集合 (并 集 ) 
void intersection(MathSET<Key> a) 将 该 集合 中 所 有 不 在 a 中 的 键 删除 交集 ) 
void delete(Key key) 将 key 从 集合 中 删 去 
boolean contains(Key key) 集合 中 是 否 存 在 键 key 
boolean isEmpty() 集合 是 否 为 空 


int size() 集合 中 键 的 总 数 


3.5.18 


3.5.19 


3.5.20 


3.5.21 


3.5.22 


3.5.23 


3.5.24 


3.5.25 


3.5.26 


3.5.27 
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请 使 用 符号 表 来 实现 它 。 附 加 题 : 使 用 boolean 类 型 的 数组 来 表示 和 集合。 

多 重 集合 。 请 参考 练习 3.5.2、 练 习 3.5.3 以 及 前 面 的 练习 ， 为 无 序 和 有 序 的 多 重 集合 〈 可 以 含有 相 
同 的 键 的 集合 ) 给 出 Mu1tiHashSET 和 MultiSET 的 API， 并 分 别 用 SeparateChainingMu1tiSET 
和 BinarySearchMu1tiSET 实现 它们 。 

符号 表 中 的 等 值 键 。( 有 序 的 和 无 序 的 ) MultiST 的 API 分别 和 表 3.1.2 以 及 表 3.1.4 中 定 
义 的 符号 表 API 相同 ， 只 是 允许 存在 等 值 的 键 。 因 此 ，get 0) 方法 的 行为 是 返回 给 定 键 所 关 
联 的 任意 值 。 另 外 ， 我 们 还 需要 添加 一 个 新 方法 来 返回 和 给 定 键 关 联 的 所 有 值 : 


Iterable<Value> getAll(Key key) 
根据 我 们 的 SeparateChainingHashST 和 BinarySearchsT 的 代码 来 实现 SeparateChaining- 
MultiST 和 BinarySearchMultiST 的 API。 

对 照 索引 。 编 写 一 个 ST 的 用 例 Concordance， 为 从 标准 输入 得 到 的 字符 串 构 建 对 照 索引 并 打印 
出 来 (请 见 320 页 “图 书 索 引 ” 段 落 中 “对 照 索引 ”的 定义 ) 。 

反 向 对 照 索引 。 编 写 一 个 程序 PnvertedConcordance， 从 标准 输入 接受 一 个 对 照 索引 并 在 标 
准 输出 中 打印 出 原始 的 字符 串 。 注 意 : 这 个 计算 和 著名 的 “死海 卷轴 ”故事 有 关 。 最 早 发 
现 原始 石板 的 团队 仅 公 开 了 用 一 种 不 为 人 知 的 方式 生成 的 对 照 索 引 。 一 段 时 间 之 后 其 他 研 
究 者 才 找 到 了 如 何 将 这 种 索引 还 原 的 方法 ， 并 最 终 将 石板 上 的 全 文公 之 于 众 。 

完全 索引 的 CSV 文件 。 编 写 一 个 ST 的 用 例 Fu11LookupCSV， 构 造 一 个 ST 对 象 的 数组 ( 每 列 一 
个 ) ， 以 及 一 个 允许 使 用 者 指定 键 和 值 的 列 的 测试 用 例 。 

稀 芯 和 给 阵 。 为 稀 玻 二 维和 矩阵 设计 一 组 API 并 将 它 实 现 ， 支 持 矩 阵 的 加 法 和 乘法 操作 。 包 含 分 别 
能 够 指定 行 和 列 向 量 的 构造 函数 。 

不 重 党 的 区 间 查 找 。 给 定 对 象 的 一 组 互 不 重合 的 区 间 ， 编 写 一 个 了 浮 数 接受 一 个 对 象 作为 参数 并 判 
断 它 是 否 存在 于 其 中 任何 一 个 区 间 之 内 。 例 如 ， 如 果 对 象 是 整数 而 区 间 为 1643-2033，5532-7643， 
8999-10332, 5666653-5669321 , 那么 查询 9122 的 结果 为 第 三 个 区 间 , 而 8122 的 结果 是 不 在 任何 区 间 。 
登记 员 的 日 程 安排 。 东 北部 某 著 名 大 学 的 注册 主任 最 近 作 出 的 安排 中 有 一 位 老师 需要 在 同一 时 
间 为 两 个 不 同 的 班级 授课 。 请 用 一 种 方法 来 检查 类 似 的 冲突 , 帮助 这 位 主任 不 要 再 犯 同样 的 错误 。 
简单 起 见 ， 假 设 每 节 课 的 时 间 为 50 分 钟 ， 分 别 从 9:00、10:00、11:00、1:00、2:00 和 3:00 开始 。 
LRU 缓存 。 创 建 一 个 支持 以 下 操作 的 数据 结构 : 访问 和 删除 。 访 问 操作 会 将 不 存在 于 数据 结构 
中 的 元 素 插入 。 删 除 操作 会 删除 并 返回 最 近 最 少 访问 的 元 素 。 提 示 : 将 元 素 按照 访问 的 先后 顺 
序 保 存在 一 条 双向 链表 之 中 ， 并 保存 指向 开头 和 结尾 元 素 的 指针 。 将 元 素 和 元 素 在 链表 中 的 位 
置 分 别 作为 键 和 相应 的 值 保存 在 一 张 符号 表 中 。 当 你 访问 一 个 元 素 时 ， 将 它 从 链表 中 删除 并 重 
新 插 和 人 链表 的 头 部 。 当 你 删除 一 个 元 素 时 ， 将 它 从 链表 的 尾部 和 符号 表 中 删除 。 
列表 。 实 现 表 3.5.7 中 的 API: 


表 3.5.7 列表 数据 类 型 的 API 


Public class List<Item> implements Iterable<Item> 


List() 创建 一 个 列表 
void addFront(Item item) 将 item 添加 到 列表 的 头 部 
void addBack(CItem item) 将 item 添加 到 列表 的 尾部 
Item deleteFront() I 除 列表 头 部 的 元 素 
Item deleteBack() I 除 列表 尾部 的 元 素 
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( 续 ) 
Public class List<Item> implements Iterable<Item> 

void delete(Item item) 从 列表 中 删除 item 

void add(int i, Item item) 将 item 添加 为 列表 的 第 i 个 元 素 

Item delete(int i) 从 列表 中 删除 第 i 个 元 素 
boolean contains(Item item) 列表 中 是 否 存在 元 素 item 
boolean isEmpty() 列表 是 否 为 空 

int size() 列表 中 元 素 的 总 数 


提示 : 使 用 两 个 符号 表 ， 一 个 用 来 快速 定位 列表 中 的 第 站 个 元 素 ， 另 一 个 用 来 快速 根据 元 
素 查 找 。 (Java 的 java.util.List 包含 类 似 的 方法 , 但 它 的 实现 的 操作 并 不 都 是 高 效 的 。 ) 
3.5.28 ”uniQueue。 创建 一 个 类 似 于 队列 的 数据 类 型 ， 但 每 个 元 素 只 能 插入 队列 一 次 。 用 一 个 符号 表 来 
511 记录 所 有 已 经 被 插入 的 元 素 并 忽略 所 有 将 它们 重新 插入 的 请 求 。 
3.5.29 支持 随机 访问 的 符号 表 。 创 建 一 个 数据 结构 ， 能 够 向 其 中 插入 键 值 对 ， 查 找 一 个 键 并 返回 相应 
的 值 以 及 删除 并 返回 一 个 随机 的 键 。 提 示 : 将 一 个 符号 表 和 一 个 随机 队列 结合 起 来 实现 该 数据 
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mm 了 人 日 
图 实验 是 


3.5.30 重复 元 素 ( 续 ), 使 用 3.5.2.1 节 的 dedup 过 滤器 重新 完成 练习 2.5.31。 比 较 两 种 解决 方法 的 运行 时 间 。 
然后 使 用 dedup 运行 试验 , 其 中 N=10”、10” 和 10”。 使 用 随机 的 1ong 值 重新 完成 试验 并 讨论 结果 。 

3.5.31 拼写 检查 。 将 本 书 网 站 上 的 dictionarytxt 文件 作为 命令 行 参数 ， 用 3.5.2.2 节 的 BlackFilter 程序 打 
印 出 从 标准 输入 接受 的 文本 文件 中 所 有 拼写 错误 的 单词 。 在 这 个 测试 中 分 别 使 用 RedB1ackBST、 
SeparateChainingHashST 和 LinearProbingHashST 处 理 WarAndPeace.txt ( 本 书 网 站 提供 ) 并 讨 
论 结果 。 

3.5.32 字典。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupCSV 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.33 索引。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupIndex 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.34 黎 玖 向 量 。 用 实验 来 比较 使 用 稀 玻 矩阵 和 使 用 标准 数组 实现 矩阵 向 量 乘法 的 性 能 。 

3.5.35 原始 数据 类 型 。 对 于 LinearProbingHashST 和 RedB1ackBST， 评 估 使 用 原始 数据 类 型 来 表示 
Integer 和 Double 值 的 情况 。 如 果 在 一 张 巨 型 的 符号 表 中 进行 大 量 的 查找 ， 这 么 做 能 节省 多 少 
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在 许多 计算 机 应 用 中 ， 由 相连 的 结 点 所 表示 的 模型 起 到 了 关键 的 作用 。 这 些 结 点 之 间 的 连接 很 
自然 地 会 让 人 们 产生 一 连 串 的 疑问 : 沿 着 这 些 连 接 能 否 从 一 个 结 点 到 达 另 一 个 结 点 ? 有 多 少 个 结 点 
和 指定 的 结 点 相连 ? 两 个 结 点 之 间 最 短 的 连接 是 哪 一 条 ? 

要 描述 这 些 问题 ， 我 们 要 使 用 一 种 抽象 的 数学 对 象 ， 叫 做 图 。 本 章 中 ,我 们 会 详细 研究 图 的 基 
本 性 质 ， 为 学 习 各 种 算法 并 回答 这 种 类 型 的 疑问 作 好 准备 。 这 些 算法 是 解决 许多 重要 的 实际 问题 的 
基础 ， 没 有 优秀 的 算法 ， 这 些 问题 的 解决 无 法 想象 。 

图 论 作 为 数学 领域 中 的 一 个 重要 分 支 已 经 有 数 百 年 的 历史 了 。 人 们 发 现 了 图 的 许多 重要 而 实用 
的 性 质 ， 发 明了 许多 重要 的 算法 ， 其 中 许多 困难 问题 的 研究 仍然 十 分 活跃 。 本 章 中 ， 我 们 会 介绍 一 
系列 基础 的 图 算法 ， 它 们 在 各 种 应 用 中 都 十 分 重要 。 

和 我 们 已 经 研究 过 的 许多 其 他 问题 域 一 样 ， 关 于 图 的 算法 研究 相对 来 说 才 开 始 不 入。 尽管 有 些 
基础 的 算法 在 几 个 世纪 前 就 已 发 现 了 ， 但 大 多 数 有 趣 的 结论 都 是 近 几 十 年 才 被 发 现 。 得 益 于 我 们 已 
经 学 习 过 的 那些 算法 ， 即 使 是 由 最 简单 的 图 论 算法 得 到 的 程序 也 是 很 有 用 的 ， 而 那些 我 们 将 要 学 习 


的 复杂 算法 则 都 是 已 知 的 最 优美 和 最 有 意思 的 算法 的 一 部 分 。 a 
为 了 展示 图 论 应 用 的 广泛 领域 ， 在 探索 这 片 富 侯 之 地 之 前 ,我 们 先 来 看 以 下 儿 个 示例 。 515 


地 图 。 正 在 计划 旅行 的 人 也 许 想 知道 “从 普罗 维 登 斯 到 普林斯顿 的 最 短路 线 ”。 对 最 短路 径 上 
经 历 过 交通 堵塞 的 旅行 者 可 能 会 问 :“ 从 普罗 维 登 斯 到 普林斯顿 的 哪 条 路 线 最 快 ? “要 回答 这 些 问题 ， 
我 们 都 要 处 理 有 关 结 点 〈 十字 路 口 ) 之 间 多 条 连接 (公路 ) 的 信息 。 

网 页 信息 。 当 我 们 在 浏览 网 页 时 ， 页 面 上 都 会 包含 其 他 网 页 的 引用 (链接 ) 。 通 过 单 击 链接 ， 
我 们 可 以 从 一 个 页 面 跳 到 男 一 个 页 面 。 整 个 互联 网 就 是 一 张 图 ， 结 点 是 网 页 ， 连 接 就 是 超 链接 。 图 
算法 是 帮助 我 们 在 网 络 上 定位 信息 的 搜索 引擎 的 关键 组 件 。 

电路 。 在 一 块 电路 板 上 ， 唱 体 管 、 电 阻 、 电 容 等 各 种 元 件 是 精密 连接 在 一 起 的 。 我 们 使 用 计算 
机 来 控制 制造 电路 板 的 机 器 并 检查 电路 板 的 功能 是 否 正 常 。 我 们 既 要 检查 短路 这 类 简单 问题 ， 也 要 
驹 查 这 幅 电路 图 中 的 导线 在 蚀刻 到 芯片 上 时 是 否 会 出 现 交 叉 等 复杂 问题 。 第 一 类 问题 的 答案 仅 取决 
于 连接 ( 导线 ) 的 属性 ， 而 第 二 个 问题 则 会 涉及 导线 、 各 种 元 件 以 及 芯片 的 物理 特性 等 详细 信息 。 

任务 调度 。 商 品 的 生产 过 程 包含 了 许多 工序 以 及 一 些 限 制 条 件 ， 这 些 条 件 会 决定 某 些 任务 的 先后 
次 序 。 如 何 安排 才能 在 满足 限制 条 件 的 情况 下 用 最 少 的 时 间 完 成 这 些 生 产 工序 呢 ? 

商业 交易 。 零 售 商 和 金融 机 构 都 会 跟踪 市 场 中 的 买卖 信息 。 在 这 种 情形 下 ， 一 条 连接 可 以 表示 
现金 和 商品 在 买方 和 卖方 之 间 的 转移 。 在 此 情况 下 ， 理 解 图 的 连接 结构 原理 可 能 有 助 于 增强 人 们 对 
市 场 的 理解 。 

配对 。 学 生 可 以 申请 加 入 各 种 机 构 ， 例 如 社交 俱乐部 、 大 学 或 是 医学 院 等 。 这 里 结 点 就 对 应 学 
生 和 机 构 ， 而 连接 则 对 应 递交 的 申请 。 我 们 希望 找到 申请 者 与 他 们 感 兴趣 的 空位 之 间 配 对 的 方法 。 
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计算 机 网 络 。 计 算 机 网 络 是 由 能 够 发 送 、 转 发 和 接收 各 种 消息 的 站 点 互相 连接 组 成 的 。 我 们 感 
兴趣 的 是 这 种 互联 结构 的 性 质 , 因为 我 们 希望 网 络 中 的 线路 和 交换 设备 能 够 高 效率 地 处 理 网 络 流量 。 

软件 。 编 译 器 会 使 用 图 来 表示 大 型 软件 系统 中 各 个 模块 之 间 的 关系 。 图 中 的 结 点 即 构成 整个 系统 
的 各 种 类 和 模块 ， 连 接 则 为 类 的 方法 之 间 的 可 能 调用 关系 〈 静态 分 析 ) ， 或 是 系统 运行 时 的 实际 调用 关 
系 〈 动 态 分 析 ) 。 我 们 需要 分 析 这 幅 图 来 决定 如 何以 最 优 的 方式 为 程序 分 配 资源 。 

社交 网 络 。 当 你 在 使 用 社交 网 站 时 ， 会 和 你 的 朋友 之 间 建 立 起 明确 的 关系 。 这 里 ， 结 点 对 应 人 


而 连接 则 联系 着 你 和 你 的 朋友 或 是 关注 者 。 分 析 这 些 社交 网 络 的 和 


E 质 是 当前 图 算法 的 一 个 重要 应 用 。 


对 它 感 兴趣 的 不 止 是 社交 网 络 的 公司 ， 还 包括 政治 、 外 交 、 娱 乐 、 教 育 、 市 场 等 许多 其 他 机 构 ( 参 
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见 表 4.0.1 ) 。 
表 4.0.1 的 典型 应 用 

应 用 结 点 连 接 
地 图 十 字 路 公路 
网 络 内 容 网 页 超 链接 

已 路 元 器 件 导线 
任务 调度 任务 限制 条 件 
商业 交易 客户 交易 
配对 学 生 申请 
计算 机 网 络 网 站 物理 连接 
软件 方法 调用 关系 
社交 网 络 人 友谊 关系 

这 些 示例 展示 了 图 作为 一 种 抽象 模型 的 应 用 范围 以 及 我 们 在 处 理 图 时 可 能 会 遇 到 的 各 种 计算 问 


题 。 人 们 研究 过 的 关于 图 的 问题 数 以 千 计 ， 


们 将 会 学 习 几 个 最 重要 的 模型 。 在 实际 应 
行 完全 取决 于 算法 的 效率 。 


但 它们 大 多 数 都 能 用 一 些 简单 的 图 模型 解决 一 一 本 章 我 


j 中 ， 处 理 庞 大 的 数据 是 很 常见 的 ， 因 此 解决 方法 是 否 可 


在 本 章 中 ， 我 们 会 依次 学 习 4 种 最 重要 的 图 模型 : 无 向 图 ( 简单 连接 ) 、 有 向 图 ( 连接 有 方向 


性 ) 、 加 权 图 〈 连 接 带 有 权 值 ) 和 加 权 有 向 图 (连接 既 有 方向 性 又 带 有 权 值 ) 。 


4.1 无 向 图 


在 我 们 首先 要 学 习 的 这 种 图 模型 中 ， 边 ( edge ) 仅仅 是 


和 其 他 图 模型 相 区 别 , 我 们 将 它 称 为 无 向 图 。 这 是 一 种 最 简单 的 图 模型 ,我 们 


定义 。 图 是 由 一 组 顶点 和 一 组 能 够 将 两 个 顶点 相连 的 边 组 成 的 。 
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二 个 顶点 (vertex ) 之 间 的 连接 。 为 了 


先 来 看 一 下 它 的 定义 。 


就 定义 而 言 ,顶点 叫 什么 名 字 并 不 重要 ,但 我 们 需要 一 个 方法 来 指 代 这 些 硕 点 ,一 般 使 用 0 至 -1 


来 表示 一 张 含 有 了 个 顶点 的 图 中 的 各 个 顶点 。 这 样 约定 是 为 了 方便 使 用 数组 的 索引 来 编写 能 够 高 效 
访问 各 个 顶点 中 信息 的 代码 。 用 一 张 符号 表 来 为 项 点 的 名 字 和 0 到 1 的 整数 值 建 立 一 一 对 应 的 关 


系 并 不 困难 (请 见 4.1.7 节 


) ， 因 此 直接 使 用 数组 索引 作为 结 点 @) 


的 名 称 更 方便 且 不 失 一 般 性 ( 也 不 会 损失 什么 效率 )。 我 们 用 v-w CN (6) 
的 记 法 来 表示 连接 v 和 wm 的 边 , w-v 是 这 条 边 的 另 一 种 表示 方法 。 @) GO 
在 绘制 一 幅 图 时 ， 用 圆圈 表示 顶点 ， 用 连接 两 个 项 点 的 线段 2 


表示 边 ， 这 样 就 能 直观 地 看 出 图 的 结构 。 但 这 种 直觉 有 时 也 可 能 


会 误导 我 们 , 因为 图 的 定义 和 绘 出 的 图 像 是 无 关 的 。 例 如 , 图 4.1.1 


点 和 边 ( 顶点 对 ) 。 


特殊 的 图 。 我 们 的 定义 允许 出 现 两 种 简单 而 特殊 的 情况 ， 
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图 4.1.2 : 


a 


数学 家 常常 将 含有 平行 边 的 图 称 为 多 重 图 ， 而 将 没有 平行 


边 或 自 环 的 图 称 为 简单 图 。 


行 边 ( 因为 它们 会 在 实际 应 用 中 出 现 ) ， 但 我 们 不 会 将 它们 作 


4.1.1 术语 表 


中 的 两 组 图 表示 的 是 同一 幅 图 ， 因 为 图 的 构成 只 有 (无 序 的 ) 项 


口 自 环 ， 即 一 条 连接 一 个 项 点 和 其 自身 的 边 ; 


一 般 来 说 ， 实 现 允许 出 现 自 环 和 平 


加 


特殊 的 图 


4.1.2 ”特殊 的 图 


和 图 有 关 的 术语 非常 多 ， 其 中 大 多 数 定义 都 很 简单 ， 我 们 在 这 里 集中 介绍 。 
当 两 个 顶点 通过 一 条 边 相 连 时 ， 我 们 称 这 两 个 顶点 是 相 邻 的 ， 并 称 这 条 边 依附 于 这 两 个 顶点 。 
某 个 顶点 的 度数 即 为 依附 于 它 的 边 的 总 数 。 子 图 是 由 一 幅 图 的 所 有 边 的 一 个 子 集 ( 以 及 它们 所 依附 


的 所 有 项 点 ) 组 成 的 图 。 六 
顶点 的 边 所 组 成 的 子 图 。 


F 多 计算 问题 都 需要 识别 各 种 类 型 的 子 图 ， 特 别 是 F 


1 能 够 顺序 连接 一 系列 


定义 。 在 图 中 ,路径 是 由 边 顺 序 连 接 的 一 系列 顶点 。 简 单 路 径 是 一 条 没有 玫 
是 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 路 径 。 简 单 环 是 一 条 ( 除了 起 点 和 终点 必须 相同 之 
外 ) 不 含有 重复 顶点 和 边 的 环 。 路 径 或 者 环 的 长 度 为 其 中 所 包含 的 边 数 。 


复 顶 点 的 路 径 。 环 


大 多 数 情况 下 , 我们 研究 的 都 是 简单 环 和 简单 路 径 并 会 省 略 掉 简单 二 字 。 当 允许 重复 的 顶点 时 ， 
我 们 指 的 都 是 一 般 的 路 径 和 环 。 当 两 个 顶点 之 间 存 在 一 条 连接 双方 的 路 径 时 ， 我 们 称 一 个 顶点 和 另 
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一 个 顶点 是 连通 的 。 我 们 用 类 似 u-v-w-x 的 记 法 来 表示 u 到 x 的 一 条 路 径 ， 用 u-v-w-x-u 表示 从 
u 到 v 到 w 到 x 上 再 回 到 vu 的 一 条 环 。 我 们 会 学 习 几 种 查找 路 径 和 环 的 算法 。 男 外 ， 路 径 和 环 也 会 帮 
我 们 从 整体 上 考虑 一 幅 图 的 性 质 ， 参 见 图 4.1.3。 


定义 。 如 果 从 任意 一 个 顶点 都 存在 一 条 路 径 到 达 另 一 个 任意 项 点， 我 们 称 这 幅 图 是 连通 图 。 一 
幅 非 连通 的 图 由 若干 连通 的 部 分 组 成 ， 它 们 都 是 其 极 大 连通 子 图 。 


直观 上 来 说 ， 如 果 顶 点 是 物理 存在 的 对 象 ， 例 如 绳 节 或 是 念珠 ， 而 边 也 是 物理 存在 的 对 象 ， 例 
如 强 子 或 是 电线 ,那么 将 任意 项 点 提起 ， 连 通 图 都 将 是 一 个 整体 ， 而 非 连 通 图 则 会 变 成 两 个 或 多 个 
部 分 。 一 般 来 说 ， 要 处 理 一 张 图 就 需要 一 个 个 地 处 理 它 的 连通 分 量 ( 子 图 ) 。 

无 环 图 是 一 种 不 包含 环 的 图 。 我 们 将 要 学 习 的 几 个 算法 就 是 要 找 出 一 幅 图 中 满足 一 定 条 件 的 无 
环 子 图 。 我 们 还 需要 一 些 术语 来 表示 这 些 结构 。 


时 是 一 幅 无 环 连通 图 。 互 不 相连 的 树 组 成 的 集合 称 为 森林 。 连 通 图 的 生成 树 是 它 的 一 幅 
， 它 含有 图 中 的 所 有 顶点 且 是 一 棵 树 。 图 的 生成 树 森 林 是 它 的 所 有 连通 子 图 的 生成 树 的 集 
参见 图 4.1.4 和 图 4.1.5。 


长 度 为 
< 4 的 路 径 18 个 顶点 


无 环 图 史记 


度数 为 
3 的 顶点 \N 


se 


图 4.1.3 图 的 详解 图 4.1.4 一 棵 树 图 4.1.5 生成 树 森 林 
树 的 定义 非常 通用 , 稍 做 改动 就 可 以 变 成 用 来 描述 程序 行为 的 ( 函数 调用 层次 ) 模 型 和 数据 结构 ( 二 
又 查找 树 、2-3 树 等 ) 。 树 的 数学 性 质 很 直观 并 且 已 被 系统 地 研究 过 ， 因 此 我 们 就 不 给 出 它们 的 证 明了 。 
例如 ， 当 和 且 仅 当 一 幅 含 有 了 个 结 点 的 图 G 满足 下 列 5 个 条 件 之 一 时 ， 它 就 是 一 棵 树 : 
口 G 有 六 1 条 边 且 不 含有 环 ; 
口 G 有 六 1 条 边 且 是 连通 的 ; 
口 G 是 连通 的 ， 但 删除 任意 一 条 边 都 会 使 它 不 再 连通 ; 
口 G 是 无 环 图 ， 但 添加 任意 一 条 边 都 会 产生 一 条 环 ; 
口 G 中 的 任意 一 对 顶点 之 间 仪 存在 一 条 简单 路 径 。 

我 们 会 学 习 几 种 寻找 生成 树 和 森林 的 算法 ， 以 上 这 些 性 质 在 分 析 和 实现 这 些 算法 的 过 程 中 扮演 
着 重要 的 角色 。 


4.1 无 向 图 


图 的 密度 是 指 已 经 连接 的 顶点 对 占 所 有 可 能 被 连接 的 顶点 对 的 比例 。 在 稀疏 图 中 ， 被 连接 的 顶点 
对 很 少 ; 而 在 稠密 图 中 ， 只 有 少 部 分 顶点 对 之 间 没 有 边 连接 。 一 般 来 说 ， 如 果 一 幅 图 中 不 同 的 边 的 数 


= 


量 在 顶点 总 数 玫 的 一 个 小 的 常数 倍 以 内 ， 那 么 我 们 就 认为 这 幅 图 是 稀 玻 的 ， 和 否则 则 是 稠密 的 ， 参 见 网 


4.1.6。 这 条 经 验 规律 虽然 会 留 下 一 片 灰色 地 带 ( 比如 当 边 的 数量 为 ~ cV” 时 ) ， 但 实际 应 用 中 稀 玻 
图 和 稠密 图 之 间 的 区 别 是 十 分 明显 的 。 我 们 将 会 遇 到 的 应 用 使 用 的 几乎 都 是 稀 琉 网 。 


二 分 图 是 一 种 能 够 将 所 有 结 点 分 为 两 部 分 的 图 ， 其 中 图 的 每 条 边 所 


连接 的 两 个 顶点 都 分 别 属于 不 


同 的 部 分 。 图 4.1.7 即 为 一 幅 二 分 图 的 示例 ， 其 中 红色 的 结 点 是 一 个 集合 ,黑色 的 结 点 是 男 一 个 集合 。 
二 分 图 会 出 现在 许多 场景 中 ， 我 们 会 在 本 方 的 最 后 详细 研究 其 中 的 一 个 场景 。 


稀疏 图 E-200 稠密 图 “BE=1000 


4.1.6 ”两 幅 图 ( 产 50) 图 4.1.7 


二 分 图 ( 另 见 彩 插 ) 


现在 ,我 们 已 经 做 好 了 学 习 图 处 理 算法 的 准备 。 我 们 首先 会 研究 一 种 表示 图 的 数据 类 型 的 API 及 


其 实现 ， 然 后 会 学 习 一 些 查 找 图 和 鉴别 连通 分 量 的 经 典 算法 。 最 后 ， 我 们 会 考虑 真实 世界 中 的 一 些 图 


一 一、 一 


的 应 用 ， 它 们 的 顶点 的 名 字 可 能 不 是 整数 并 且 会 含有 数目 庞大 的 顶点 和 边 。 


4.1.2 ”表示 无 向 图 的 数据 类 型 


要 开发 处 理 图 问题 的 各 种 算法 ， 我 们 首先 来 看 一 份 定义 了 图 的 基本 操作 的 API， 参 见 表 4.1.1。 


有 了 它 我 们 才能 完成 从 简单 的 基本 操作 到 解决 复杂 问题 的 各 种 任务 。 


表 4.1.1 无 向 图 的 API 


public class Graph 


Graph(Cint V) 创建 一 个 含有 个 顶点 但 不 含有 边 的 图 
Graph (In in) 从 标准 输入 流 in 读 入 一 幅 图 
int VO 顶点 数 
int EC) 边 数 
void addEdge(Cint v, int w) 向 图 中 添加 一 条 边 v-w 
Iterable<Integer> adj(int v) 和 v 相 邻 的 所 有 顶点 
String toString(O) 对 象 的 字符 串 表 示 
这 份 API 含有 两 个 构造 函数 ， 有 两 个 方法 用 来 分 别 返 回 图 中 的 顶点 数 和 边 数 ， 有 一 个 方法 用 来 添 
加 一 条 边 ，toStringQ 方法 和 adjQ 方法 用 来 允许 用 例 遍 历 给 定 顶 点 的 所 有 相 邻 硕 点 (遍历 顺序 不 确 


定 ) 。 值 得 注意 的 是 ， 本 节 将 学 习 的 所 有 算法 都 基于 adj 〇 方法 所 抽象 的 基本 操作 。 


第 二 个 构造 函数 接受 的 输入 由 22+2 个 整数 组 成 : 首先 是 VV， 然后 是 ， 青 然后 是 对 0 到 六 1 


之 间 的 整数 ， 每 个 整数 对 都 表示 一 条 边 。 例 如 ， 我 们 使 用 了 由 图 4.1.8 


所 描述 的 两 个 示例 。 


Pp 的 tinyG.txt 和 mediumG.txt 
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522 


523 


调用 Graph 的 几 段 用 例 代码 请 见 表 4.1.2。 
tinyG.txt mediumG.txt 
V3 广 -> 250 
13 一 1273 < 一 
0 5 © 244 246 
43 239 240 
0 1 (6) 238 245 
9 12 (WD ©) 235 238 
6 4 233 240 
5 4 SO 232 248 
02 231 248 
1112 (5) DaD 229 249 
9 10 228 241 
0 6 226 231 
78 a 
gE (还 有 1263 行 ) 
5 3 
图 4.1.8 Graph 的 构造 函数 的 输入 格式 (两 个 示例 ) 
表 4.1.2 最 常用 的 图 处 理 代码 
任 ” 务 实 现 
计算 v 的 度数 public static int degree(Graph G, int v) 
{ 
int degree = 0; 
for (int w : G.adj(v)) degree++; 
return degree; 
} 
计算 所 有 顶点 的 最 大 度数 public static int maxDegree(Graph GO) 
{ 
int max = 0; 
for (int v= 0; v < G.VO; v++) 
if (degree(G, v) > max) 
max = degree(G, Vv); 
return max; 
} 
计算 所 有 顶点 的 平均 度数 public static double avgDegree(Graph G) 
{ return 2.0 * G.EQ) / G.VO; } 
计算 自 环 的 个 数 public static int numberOfSelfLoops(Graph G) 


{ 
int count = 0; 
for (int v= 0; v < G.VO; v++) 


for (int w : G.adj(v)) 
if (v == WwW) count++; 
return count/2; // 每 条 边 都 被 记过 两 次 
} 
图 的 邻接 表 的 字符 串 表 示 (Graph public String toString() 
的 实例 方法 ) { 
String s =V + " vertices, " + E+ " edges\n"; 
for (int v = 0; Vv < Vi Vv++) 
{ 
S+=V+": "; 
for (int w : this.adj(v)) 
s+=W+" "; 
Ss += "\n"; 
} 
return s; 
} 


4.1.2.1 图 的 几 种 表示 方法 
我 们 要 盏 
含 以 下 两 个 要 求 : 


j 对 的 下 一 个 图 处 理 问题 就 是 用 哪 种 方式 〈 数据 结构 ) 来 表示 图 并 实 


个 


岗 这 份 API， 这 包 


口 它 必须 为 可 能 在 应 用 中 碰 到 的 各 种 类 型 的 图 

预 留 出 足够 的 空间 ; 

口 Graph 的 实例 方法 的 实现 一 定 要 快 一 一 它们 
是 开发 处 理 图 的 各 种 用 例 的 基础 。 

这 些 要 求 比较 模糊 ,但 它们 仍然 能 够 帮助 我 们 


在 三 种 图 的 表示 方法 中 进行 选择 。 


口 邻接 矩阵 。 我 们 可 以 使 用 一 个 V 乘 让 的 布尔 

矩阵 。 当 顶点 v 和 顶点 w 之 间 有 相连 接 的 边 
时 ， 定义 v 行 w 列 的 元 素 值 为 true， 否 则 为 
false。 这 种 表示 方法 不 符合 第 一 个 条 件 
含有 上 百 万 个 顶点 的 图 是 很 常见 的 ， 严 个 布尔 
值 所 需 的 空间 是 不 能 满足 的 。 

口 边 的 数组 。 我 们 可 以 使 用 一 个 Edge 类 ， 它 
含有 两 个 int 实例 变量 。 这 种 表示 方法 很 简 
洁 但 不 满足 第 二 个 条 件 一 一 要 实现 adj 0O) 需 
要 检查 网 中 的 所 有 边 。 

口 邻接 表 数 组 。 我 们 可 以 使 用 一 个 以 顶点 为 索引 
的 列表 数组 ， 其 中 的 每 个 元 素 都 是 和 该 顶点 相 
邻 的 顶点 列表 ， 人 参见 图 41.9。 这 种 数据 结构 能 
够 同时 满足 典型 应 用 所 需 的 以 上 两 个 条 件 ， 我 
们 会 在 本 章 中 一 直 使 用 它 。 

除了 这 些 性 能 日 标 之 外 ， 经 过 续 密 的 检查 ， 我 


们 还 发 现 了 另 一 些 在 某 些 应 用 中 可 能 会 很 重要 的 东 
西 。 例 如 , 允许 存在 平行 边 相 当 于 排除 了 邻接 矩阵 ， 
因为 邻接 矩阵 无 法 表示 它们 。 


4.1.2.2 


邻接 表 的 数据 结构 
非 稠密 图 的 标准 表示 称 为 邻接 表 的 数据 结构 ， 


它 将 每 个 顶点 的 所 有 相 邻 顶点 都 保存 在 该 顶点 对 应 


的 元 素 所 指向 的 一 张 链表 中 。 我 们 使 用 这 个 数组 就 
是 为 了 快速 访问 给 定 顶 点 的 邻接 顶点 列表 。 这 里 使 


用 1.3 节 中 的 Bag 抽象 数据 类 型 来 实现 这 个 链表 ， 


这 样 我 们 就 可 以 在 常数 时 间 内 添加 新 的 边 或 遍历 任 


意 项 点 的 所 有 相 邻 顶点 。 后 面 框 注 “Graph 数 据 类 型 ” 
P 的 Graph 类 的 实现 就 是 基于 这 种 方法 ， 而 图 4.1.9 


中 所 示 的 正 是 用 这 种 方法 处 理 tinyG.txt 所 得 到 的 数 


[a 


据 结 构 。 要 添加 一 条 连接 v 与 w 的 边 ,我 们 将 w 添 


UD 


加 到 v 的 邻接 表 


并 把 v 添加 到 w 的 邻接 表 中 。 因 


此 ， 在 这 个 数据 结构 中 每 条 边 都 会 出 现 两 次 。 这 种 


Graph 的 实现 的 性 能 有 如 下 特点 : 
口 使 用 的 空间 和 VtE 成 正比 ; 


4.1 无 向 图 本 335 


0 
0 
adj[] 
115 上 [4 
它们 表示 的 


是 同一 条 边 
PE 吾 
11 

12 N11 [10H [12 


9 
9 i12 
~ 


ll 9 


Bag 对 象 


四 0 了 wm 由 P 靖 口 


图 4.1.9 ”邻接 表 数 组 示意 (无 向 图 ) 


Na (6) 524 
tinyG.txt 
—> 13 % java Graph tinyG.txt 
13 < 一 上 13 vertices, 13 edges 
0 5 0 :6 下 2 号 本 5 
43 1 0 
01 0 
9 12 De 相 邻 顶点 在 链表 
6 4 中 排 在 最 后 
5 4 5: 340 
0 2 6: 0 4 
11 12 2 8 
9 10 So 
Sanilelonme 
Qe i 每 条 边 在 第 
7 8 11: 9 12 -次 出 现时 
9 11 12，11 9 ”都 被 标记 为 红色 
学 , 涡 


图 4.1.10 ”由 边 得 到 的 邻接 表 ( 另 见 彩 插 ) 
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口 添加 一 条 边 所 需 的 时 间 为 常数 ; 
口 遍历 顶点 v 的 所 有 相 邻 顶点 所 需 的 时 间 和 v 的 度数 成 正比 〈 处 理 每 个 相 邻 顶点 所 需 的 时 间 
为 常数 ) 。 
对 于 这 些 操作 ， 这 样 的 特性 已 经 是 最 优 的 了 ， 这 已 经 可 以 满足 图 处 理应 用 的 需要 ， 而 且 支 持平 行 
边 和 自 环 (我们 不 会 检测 它们 ) 。 注 意 ， 边 的 插入 顺序 决定 了 Graph 的 邻接 表 中 顶点 的 出 现 顺 序 ， 
参见 图 4.1.10。 多 个 不 同 的 邻接 表 可 能 表示 着 同一 幅 图 。 当 使 用 构造 函数 从 标准 输入 中 读 入 一 幅 图 时 ， 
这 就 意味 着 输入 的 格式 和 边 的 顺序 决定 了 Graph 的 邻接 表 数 组 中 顶点 的 出 现 顺序 。 因 为 算法 在 使 用 
adj 〇 来 处 理 所 有 相 邻 的 项 点 时 不 会 考虑 它们 在 邻接 表 中 的 出 现 顺 序 ， 这 种 差异 不 会 影响 算法 的 正 古 
性 ， 但 在 调试 或 是 跟踪 邻接 表 的 轨迹 时 我 们 还 是 需要 注意 这 一 点 。 为 了 简化 操作 ,假设 Graph 有 一 
个 测试 用 例 来 从 命令 行 参数 指定 的 文件 中 读 取 一 幅 图 并 将 它 打 印 出 来 (参见 表 4.1.2 中 的 toStringO) 
525| 方法 的 实现 ), 以 显示 邻接 表 中 的 各 个 顶点 的 出 现 顺序 , 这 也 是 算法 处 理 它们 的 顺序 (请 见 练习 4.1.7 )。 


Graph 数据 类 型 


public class Graph 
‘ 
private final int V; // 顶点 数目 
private int E; // 边 的 数目 
private Bag<Integer>[] adj ; // 邻接 表 
public Graph(Cint V) 
{ 
this.V = V; this.E = 0; 
adj = (Bag<Integer>[]) new Bag[V]; // 创建 邻接 表 
for (Cint v = 0;Vv < V; v++) // 将 所 有 链表 初始 化 为 空 
adj[v] = new Bag<Integer>() ; 


public Graph(In in) 
{ 
this(in.readInt()); // 读 取 V 并 将 图 初始 化 
int E = in.readInt(); // 读 取 E 
for (Cint i = 0; i < E; i++) 
{ // 添加 一 条 边 
int v = in.readInt(); // 读 取 一 个 顶点 
int w = in.readIntO); // 读 取 另 一 个 顶点 
addEdge(v, w); // 添加 一 条 连接 它们 的 边 
} 
} 
public int VO { return V; } 
public int EC() { return E; } 
public void addEdge(int v, int w) 
{ 
adj[v] .addCw) ; // 将 w 添 加 到 V 的 链表 中 
adj[w] .add (Cv); // 将 v 添 加 到 W 的 链表 中 
E++; 
3 
public Iterable<Integer> adj(int v) 
{ return adj[vj; } 
} 


这 份 Graph 的 实现 使 用 了 一 个 由 项 点 索引 的 整 型 链表 数组 。 每 条 边 都 会 出 现 两 次 ， 即 当 存 在 一 条 连 
接 v 与 w 的 边 时 , w 会 出 现在 v 的 链表 中 ，v 也 会 出 现在 w 的 链表 中 。 第 二 个 构造 函数 从 输入 流 中 读 取 一 


526| 幅 图 , 开头 是 V， 然后 是 E， 再 然后 是 一 列 整 数 对 ,大 小 在 0 到 六 -1 之 间 。toString() 方法 请 见 表 4.1.2。 
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在 实际 应 用 中 还 有 一 些 操作 可 能 是 很 有 用 的 ， 例 如 : 
口 添加 一 个 顶点 ; 
口 删除 一 个 顶点 。 

实现 这 些 操作 的 一 种 方法 是 扩展 之 前 的 API, 使 用 符号 表 ( ST ) 来 代替 由 顶点 索引 构成 的 数组 ( 这 
样 修改 之 后 就 不 需要 约定 顶点 名 必须 是 整数 了 ) 。 我 们 可 能 还 需要 : 
口 删除 一 条 边 ; 
口 检查 图 是 否 含有 边 v-w。 

要 实现 这 些 方法 〈 不 允许 存在 平行 边 ) ， 我 们 可 能 需要 使 用 SET 代替 Bag 来 实现 邻接 表 。 我 们 
称 这 种 方法 为 邻接 集 。 本 书 中 不 会 使 用 这 些 数据 结构 ， 因 为 : 
口 用 例 代码 不 需要 添加 顶点、 删除 顶点 和 边 或 是 检查 一 条 边 是 否 存 在 ; 
口 当 用 例 代码 需要 进行 上 述 操 作 时 ， 由 于 频率 很 低 或 者 相关 的 邻接 链表 很 短 ， 因 此 可 以 直接 使 
用 穷 举 法 遍历 链表 来 实现 ; 
口 使 用 SET 和 ST 会 令 算 法 的 实现 变 得 更 加 复杂 ， 分 散 了 读者 对 算法 本 身 的 注意 力 ; 
D 在 某 些 情况 下 ， 它 们 会 使 性 能 损失 logy。 

使 我 们 的 算法 适应 其 他 设计 ( 例如， 不 允许 出 现 平行 边 或 是 自 环 ) 并 避免 不 必要 的 性 能 损失 并 
不 困难 。 表 4.1.3 总 结 了 之 前 提 到 过 的 所 有 其 他 实现 方法 的 性 能 特点 。 和 常见 的 应 用 场景 都 需要 处 理 
庞大 的 稀 琉 图 ， 因 此 我 们 会 一 直 使 用 邻接 表 。 


表 4.1.3 ”典型 Graph 实现 的 性 能 复杂 度 


数据 结构 所 需 空间 添加 一 条 边 v-w ”检查 w 和 v 是 否 相 邻 遍历 v 的 所 有 相 邻 项 点 

边 的 列表 E 1 E E 

邻接 矩 阵 到 1 1 V 

邻接 表 E+V 1 desree(V) degree(v) 

邻接 集 E+V logV logV logV+degree(v) 527 


4.1.2.3 图 的 处 理 算 法 的 设计 模式 

因为 我 们 会 讨论 大 量 关 于 图 处 理 的 算法 ， 所 以 设计 的 首要 目标 是 将 图 的 表示 和 实现 分 离开 来 。 
为 此 ， 我 们 会 为 每 个 任务 创建 一 个 相应 的 类 ， 用 例 可 以 创建 相应 的 对 象 来 完成 任务 。 类 的 构造 函数 
一 般 会 在 预 处 理 中 构造 各 种 数据 结构 ， 以 有 效 地 响应 用 例 的 请 求 。 典 型 的 用 例 程 序 会 构造 一 幅 图 ， 
将 图 传递 给 实现 了 某 个 算法 的 类 ( 作为 构造 函数 的 参数 ), 然后 调用 用 例 的 方法 来 获取 图 的 各 种 性 质 。 
作为 热身 ， 我 们 先 来 看 看 这 份 API， 参 见 表 4.1.4。 


表 4.1.4 图 处 理 算法 的 API (热身 ) 


public class Search 


Search(Graph G, int s) 找到 和 起 点 s 连通 的 所 有 顶点 
boolean marked(Cint v) v 和 s 是 连通 的 吗 
int count() 与 s 连通 的 顶点 总 数 


我 们 用 起 点 ( source ) 区 分 作为 参数 传递 给 构造 函数 的 项 点 与 图 中 的 其 他 项 点 。 在 这 份 API 中， 
构造 函数 的 任务 是 找到 图 中 与 起 点 连通 的 其 他 项 点。 用 例 可 以 调用 markedQ 方法 和 countQ 〇 ， 方 
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法 来 了 解 图 的 性 质 。 方 法 名 marked() 指 的 是 这 种 基本 算法 使 用 的 一 种 实现 方式 ， 本 章 中 会 一 直 
使 用 到 这 种 算法 : 在 图 中 从 起 点 开始 沿 着 路 径 到 达 其 他 顶点 并 标记 每 个 路 过 的 顶点 。 后 面 框 注 中 
令 行 得 到 的 一 个 输入 流 的 名 称 和 起 始 结 
给 定 的 起 始 结 


的 图 处 理 用 例 TestSearch 接受 由 命 
j Graph 的 第 二 个 构造 函数 ) , 用 这 幅 图 和 
j markedQ) 打印 出 图 中 和 起 点 连通 的 所 有 顶点 。 它 也 调用 了 count() 并 打印 了 图 是 否 是 连通 
够 标记 图 中 的 所 有 顶点 时 图 才 是 连通 的 ) 。 


中 读 取 一 幅 图 (使 
然后 
的 ( 当 且 仅 当 搜索 能 


public class TestSearch 


{ 


public static void main(String[] args) 


点 的 编号 ， 从 输入 流 
点 创建 一 个 Search 对 象 ， 


% java TestSearch tinyG.txt 0 
0 203940506 
NOT connected 


% java TestSearch tinyG.txt 9 


gl0nll 
NOT connected 


Graph G = new GraphCnew In(args[0])); k 
int s = Integer.parseInt(args[1]); tinyG. txt 
Search search = new Search(G, s); 3 
3 
omeme ve ON < GVO Ve Os @) 
if (search.marked(v)) 43 
StdOues oint er 人 十 | (D) (2) (6) 
Stdout.println() ; 
if (search.countC != G.VO) 5 证 (3) (9) QO 
Stdout.printC"NOT "); 0 2 AY @e 
StdOut.printin("connected"); 3 
1 0 6 
ES 
gmt 
图 处 理 的 用 例 (热身 ) 5 是 3 
我 们 已 经 见 过 Search API 的 一 种 实现 : 第 1 章 中 的 union-find 算法 。 它 的 构造 函数 会 创建 一 


个 UF 对 象 ， 对 图 中 的 每 一 条 边 进 行 一 次 union( 操作 并 调用 connected(s,v) 来 实现 marked(v) 


方法 。 实 现 countQ 〇 方法 需要 一 个 加 权 的 UF 实现 并 扩展 它 的 API， 


sz[find(v)] (请 见 练习 4.1.8 ) 。 


们 要 学 习 的 实现 还 可 以 更 进一步 。 


ds 
已 会 


的 。 这 是 一 种 重要 的 递归 方法 ， 


这 种 实现 简单 而 高 效 ， 但 下 面 我 
它 基于 的 是 深度 优先 搜索 ( DFS ) 


沿 着 图 的 边 寻 找 和 起 点 连通 的 


所 有 项 点。 深度 优先 搜索 是 本 章 中 将 学 习 的 好 几 种 关于 图 的 算法 的 


基础 o 


4.1.3 深度 优先 搜索 


我 们 常常 通过 系统 地 检查 每 一 个 顶点 和 每 一 条 


种 性 质 。 要 得 到 图 的 一 些 简单 性 质 


很 容易 ， 只 要 检查 每 一 条 边 即 可 ( 任意 顺序 ) 。 但 图 的 许 


条 边 来 获取 图 的 各 
(比如 ， ee 的 度数 ) 
多 其 他 性 


质 和 路 径 有 关 ， 因 此 一 种 很 自然 0 的 边 从 一 个 顶点 移 


动 到 男 一 个 项 点。 尽管 存在 各 种 各 样 的 处 理 策略 ， 


的 几乎 所 有 与 图 有 关 的 算法 都 使 用 了 


上 晶 后 面 将 要 学 习 
这 个 简单 的 抽象 模型 ， 其 中 最 


以 便 使 用 countQ 方法 返回 
迷宫 
HA 
路 口 
通道 
Ts 
Ne 
G 一 亿 
顶点 ” 边 
图 4.1.11 等 价 的 迷宫 模型 


简单 的 就 是 下 面 介绍 的 这 种 经 典 的 方法 。 


4.1.3.1 走 迷 宫 


要 很 复杂 的 策略 才 行 。 用 


点 仅仅 只 是 一 些 文字 游戏 , 但 就 
直观 地 认识 问题 ， 参 见 图 4.1.11。 探 索 迷 宫 而 不 迷路 的 一 种 古老 


思考 图 的 搜索 过 程 的 一 种 有 益 的 方法 是 ， 考 虑 另 一 个 和 它 等 
价 但 历史 悠久 而 又 特别 的 问题 一 一 在 一 个 由 各 种 通道 和 路 
的 迷宫 中 找到 出 路 。 有 些 迷 富 


口 组 成 
的 规则 很 简单 ， 但 大 多 数 迷 宫 则 需 
代替 图 、 通 道 代 替 边 、 路 口 代 替 顶 
目前 来 说 ， 这 么 做 可 以 帮助 我 们 


办 法 ( 至 少 可 以 追溯 到 不 修 斯 和 米 诺 陶 的 传说 ) 叫 做 Tremaux 搜索 ， 


参见 图 4.1.12。 要 探索 迷宫 中 


绳子 ; 


口 标记 所 有 你 第 一 次 路 过 的 路 
口 当 来 到 一 个 标记 过 的 


的 所 有 通道 ， 我 们 需要 : 


口 选择 一 条 没有 标记 过 的 通道 ， 在 你 走 过 的 路 上 铺 一 条 


口 和 通道 ; 
路 口 时 ( 用 绳子 ) 回 退 到 上 个 路 口 ; 


绳子 可 以 保证 你 总 能 找 


口 当 回 退 到 的 路 口 已 没有 可 走 的 通道 时 继续 回 退 。 


到 一 条 出 路 ， 标 记 则 能 保证 你 不 会 


两 次 经 过 同一 条 通道 或 者 同 


一 个 路 口 。 要 知道 是 否 完全 探索 了 


整个 迷宫 需要 的 证 明 更 复杂 


只 有 用 图 搜索 才能 够 更 好 地 处 理 


问题 。Tremaux 搜索 很 直接 


， 但 它 与 完全 搜索 一 张 图 仍然 稍 有 


不 同 ， 因 此 我 们 接 下 来 看 看 


图 的 搜索 方法 。 


public class DepthFirstSearch 


{ 


private boolean[] marked; 


private int count; 


public DepthFirstSearch(Graph G, int s) 


{ 


marked = new boolean[G.VO]; 


dfs(G, s); 
} 


private void dfs(Graph G, int v) 


a 
marked[v] = true; 
COunt++; 
for (int w : 


G.adj(Cv)) 


if (!marked[w]) dfs(G, w); 


} 


public boolean marked(int w) 


{ 


public int count() 
{ return count; 


return marked[w] ; 


} 


} 


深度 优先 搜索 


4.1 无 向 图 


图 4.1.12 Tremaux 搜 索 ( 男 见 彩 插 ) 


被 标记 过 的 
顶点 集合 


这 样 的 
和 一” 边 不 存在 


顶点 集合 六 
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4.1.3.2 ”热身 


搜索 连通 图 的 经 典 递归 算法 (遍历 所 有 的 顶点 和 边 ) 和 Tremaux 搜索 类 似 , 但 描述 起 来 更 简单 。 


要 搜索 一 幅 图 ， 只 需 用 一 个 递归 方法 来 侦 历 所 有 项 点。 在 访问 其 中 一 个 顶点 时 : 


口 将 它 标记 为 已 访问 ; 


口 递归 地 访问 它 的 所 有 没有 被 标记 过 的 邻居 顶点 。 


这 种 方法 称 为 深度 优先 搜索 (DFS ) 。Search API 的 一 种 实现 使 用 了 这 种 方法 ， 如 深度 优先 
搜索 框 注 所 示 。 它 使 用 一 个 boolean 数组 来 记录 和 起 点 连通 的 所 有 顶点 。 递 归 方 法 会 标记 给 定 的 顶 
点 并 调用 自己 来 访问 该 项 点 的 相 邻 顶点 列表 中 所 有 没有 被 标记 过 的 顶点。 如 果 图 是 连通 的 ， 每 个 邻 


接 链 表 中 的 元 素 都 会 被 检查 到 。 


命题 A。 深 度 优 先 搜索 标记 与 起 点 连通 的 所 有 顶点 所 需 


的 时 间 和 和 顶点 的 度数 之 和 成 正比 。 


证 明 。 首 先 ， 我 们 要 证 明 这 个 算法 能 够 标记 与 起 点 s 连通 的 所 有 顶点 ( 且 不 会 标记 其 他 顶点 ) 。 


因为 算法 仅 通过 边 来 寻找 顶点 ， 所 以 每 个 被 标记 过 的 
标记 过 的 顶点 ww 与 s 和 连通。 因为 s 本 身 是 被 标记 过 的 ， 


顶点 都 与 s 连 通 。 现 在 ， 假 设 某 个 没有 被 
由 s 到 w 的 任意 一 条 路 径 中 至 少 有 一 条 


边 连 接 的 两 个 顶点 分 别 是 被 标记 过 的 和 没有 被 标记 过 的 ,例如 v-x。 根 据 算法 ,在 标记 了 v 之 
后 必然 会 发 现 X， 因 此 这 样 的 边 是 不 存在 的 。 前 后 矛盾 。 每 个 顶点 都 只 会 被 访问 一 次 保证 了 时 


间 上 限 ( 检查 标记 的 耗 时 和 度数 成 正比 ) 。 


4.1.3.3” 单 向 通道 

代码 中 方法 的 调用 和 返回 机 制 对 应 迷宫 中 绳子 
的 作用 : 当 已 经 处 理 过 依附 于 一 个 顶点 的 所 有 边 时 
(搜索 了 路 口 连接 的 所 有 通道 ) ， 我 们 就 只 能 “ 返 
回 ” (returm， 两 者 的 意义 相同 ) 。 为 了 更 好 地 与 
宫 的 Tremaux 搜索 对 应 起 来 ， 我 们 可 以 想象 一 座 
全 由 单 向 通道 构造 的 迷宫 ( 每 个 方向 都 有 一 个 通道 )。 
和 在 迷宫 中 会 经 过 一 条 通道 两 次 (方向 不 同 ) 一 样 ， 
在 图 中 我 们 也 会 路 过 每 条 边 两 次 (在 它 的 两 个 端点 
各 一 次 ) 。 在 Tremaux 搜索 中 ， 要 人 么 是 第 一 次 访问 
一 条 边 , 要 么 是 沿 着 它 从 一 个 被 标记 过 的 顶点 退回 。 
在 无 向 图 的 深度 优先 搜索 中 ， 在 磁 到 边 v-w 时， 要 
么 进行 递归 调用 (w 没 有 被 标记 过 ) ， 要么 跳 过 这 
条 边 (w 已 经 被 标记 过 ) 。 第 二 次 从 男 一 个 方向 w-v 
遇 到 这 条 边 时 ， 总 是 会 忽略 它 ， 因 为 它 的 男 一 端 v 
肯定 已 经 被 访问 过 了 (在 第 一 次 遇 到 这 条 边 的 时 候 )。 
4.1.3.4 ”跟踪 深度 优先 搜索 

通常 ， 理 解 算法 的 最 好 方法 是 在 一 个 简单 的 例 
子 中 跟踪 它 的 行为 。 深 度 优先 算法 尤其 是 这 样 。 在 
跟踪 它 的 轨迹 时 ， 首 先 要 注意 的 是 ， 算 法 遍历 边 和 
访问 顶点 的 顺序 与 图 的 表示 是 有 关 的 ， 而 不 只 是 与 
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图 的 结构 或 是 算法 有 关 。 因 为 深度 优先 Wa 
搜索 只 会 访问 和 起 点 连通 的 顶点 ， 所 以 ”中 ves 
使 用 图 4.1.13 所 示 的 一 幅 小 型 连通 图 为 a 
例 。 在 示例 中 ， 顶 点 2 是 顶点 0 之 后 第 $|36 
一 个 被 访问 的 顶点 ， 因 为 它 正好 是 0 的 
邻接 表 的 第 一 个 元 素 。 要 注意 的 第 二 点 下 2 5 
是 ， 如 前 文 所 述 ， 深 度 优先 搜索 中 每 条 2|o1354 
边 都 会 被 访问 两 次 ， 且 在 第 二 次 时 总 会 4 3 
发 现 这 个 顶点 已 经 被 标记 过 。 这 意味 着 
深度 优先 搜索 的 轨迹 可 能 会 比 你 想象 的 dtscl) 人 
长 一 倍 ! 示例 图 仅 含 有 8 条 边 ， 但 需 Bz "| 
要 追踪 算法 在 邻接 表 的 16 个 元 素 上 的 1 完成 xl 2 
操作 。 5 513 0 
4.1.3.5 深度 优先 搜索 的 详细 轨迹 二 yf 
图 4.1.14 显示 的 是 示例 中 每 个 顶点 Ko J 
被 标记 后 算法 使 用 的 数据 结构 ， 起 点 为 ew 3|™ 3|542 
顶点 0。 查 找 开 始 于 构造 函数 调用 递归 () 5 sl30 
的 dfs() 来 标记 和 访问 顶点 0， 后续 处 
dfs(5) olIT ol215 
理 如 下 所 述 。 检查 3 1|T 1 
口 因为 顶点 2 是 0 的 邻接 表 的 第 一 ， By 3|T 3|s42° 
个 元 素 且 没有 被 标记 过 ，dfs 0) slt 51so 
递归 调用 自己 来 标记 并 访问 顶点 
2 (效果 是 系统 会 将 顶点 0 和 0 人 or | 15 
的 邻接 表 的 当前 位 置 压 入 栈 中 ) 。 I OD | z|T zlo134 
口 现在 ,顶点 0 是 2 的 邻接 表 的 第 从 查 2 @ om 人 
一 个 元 素 且 已 经 被 标记 过 了 ， 因 ee 
此 dfs0) 跳 过 了 它 。 接 下 来 ， 顶 2 
点 1 是 2 的 邻接 表 的 第 二 个 元 素 检查 5 
目 没有 被 标记 ，dfs() 递归 调用 “” 普 
自己 来 标记 并 访问 项 点 1。 图 4.1.14 ”使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 和 顶点 0 
口 对 顶点 1 的 访问 和 前 面 有 所 不 同 : 连通 的 顶点 〈 另 见 彩 插 ) 
因为 它 的 邻接 表 中 的 所 有 顶点 (0 
和 2 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 ， 方法 从 dfs (1) 中 返回 。 下 一 条 被 检查 的 
边 是 2-3 (在 2 的 邻接 表 中 顶点 1 之 后 的 顶点 是 3) ， 因 此 dfsQ 递归 调用 自己 来 标记 并 访 
问 顶 点 3。 
口 顶点 5 是 3 的 邻接 表 的 第 一 个 元 素 且 没有 被 标记 ， 因 此 dfs 0O) 递归 调用 自己 来 标记 并 访问 
顶点 5。 
口 顶点 5 的 邻接 表 中 的 所 有 顶点 (3 和 0 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 。 
口 顶点 4 是 3 的 邻接 表 的 下 一 个 元 素 且 没有 被 标记 过 ， 因 此 dfs 0) 递归 调用 自己 来 标记 并 访 
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口 在 顶点 4 被 标记 了 之 后 ，dfs ( ) 会 检查 它 的 邻接 表 ，, 然后 再 检查 3 的 邻接 表 ， 然后 是 2 的 邻接 表 ， 
然后 是 0 的 ， 最 后 发 现 不 需要 再 进行 任何 递归 调用 ， 因 为 所 有 的 顶点 都 已 经 被 标记 过 了 。 


这 种 简单 的 递归 模式 只 是 一 个 开始 
本 节 中 ,我们 已 经 可 以 


深度 优先 搜索 能 够 有 效 处 理 许 多 和 
深度 优先 搜索 来 解决 在 第 1 章 首次 提 到 的 一 个 问题 。 


图 有 关 的 任务 。 例如 ， 


连通 性 。 给 定 一 幅 图 ， 回 答 “ 两 个 给 定 的 顶点 是 否 连 通 ? ”或 者 “图 中 有 多 少 个 连通 子 图 ? ” 


等 类 似 问 题 。 


我 们 可 以 轻易 地 用 处 理 图 问题 的 标准 设计 模式 给 出 这 些 问 题 的 答案 ， 


节 中 学 习 的 union-find 算法 进行 比较 。 


问题 “两 个 给 定 的 项 点 是 否 连 通 ? ”等 价 于 “两 个 给 定 的 项 点 之 间 是 否 存 在 一 条 路 径 ? ”， 
但 是 ,在 1.5 节 学 习 的 union-find 算法 的 数据 结构 并 不 能 解决 找 出 这 
样 一 条 路 径 的 问题 。 深度 优先 搜索 是 我 们 已 经 学 习 过 的 几 种 方法 中 第 一 个 能 够 解决 这 个 问题 的 算法 。 


许 也 可 以 叫做 路 径 检测 问题 。 


它 能 够 解决 的 另 一 个 问题 如 下 所 述 。 


还 要 将 这 些 解答 与 在 1.5 


也 


单 点 路 径 。 给 定 一 幅 图 和 一 个 起 点 s, 回答 “从 s 到 给 定 目的 顶点 V 是 否 存 在 一 条 路 径 ? 如 果 有 ， 


找 出 这 条 路 径 。” 等 类 似 问题 。 


深度 优先 搜索 算法 之 所 以 极为 简单 ， 是 因为 它 所 基于 的 概念 为 人 所 熟知 并 且 非 常 容易 实现 。 


得 


山中 


实 上 ， 它 是 一 个 既 小 巧 而 又 强大 的 算法 ， 研 究 人 员 用 它 解 决 了 无 数 困难 的 问题 。 上 述 两 个 问题 只 是 


我 们 将 要 研究 的 许多 问题 的 开始 。 
4.1.4 寻找 路 径 


单 点 路 径 问 题 在 图 的 处 理 领 域 中 十 分 重要 。 根 据 标准 设计 模式 ， 我 们 将 使 用 如 下 API ( 请 见 


表 4.1.5) 。 


表 4.1.5 


public class Paths 


路 径 的 API 


Paths(Graph GCG, int s) 
boolean hasPathTo(int v) 


Iterable<Integer> pathTo(int v) 


构造 函数 接受 一 个 起 点 s 作为 参数 ， 
计算 s 到 与 s 连通 的 每 个 顶点 之 间 的 路 
径 。 在 为 起 点 s 创建 了 Paths 对 象 后 ， 
用 例 可 以 调用 pathToQ 实例 方法 来 遍历 
从 s 到 任意 和 s 连通 的 顶点 的 路 径 上 的 
所 有 顶点 。 现 在 暂时 查找 所 有 路 径 ， 以 
后 会 实现 只 查找 具有 某 些 属性 的 路 径 。 


% java Paths tinyCG.txt 0 
(0 roT (OE 

Onton ks: 
Omto: 
0 
0 
0 


eS 
oo 
mn 上 


在 G 中 找 出 所 有 起 点 为 s 的 路 径 
是 否 存 在 从 s 到 v 的 路 径 
s 到 v 的 路 径 ， 如 果 不 存在 则 返回 nu11 


public static void main(String[] args) 
{ 
Graph G = new Graph(new In(args[0])); 
int s = Integer.parseInt(args[1]); 
Paths search = new Paths(G, s); 
for (int V= 0 V < G.VO®; vi+) 
{ 
stadOuta pentCs ee Eo rv 
if (search.hasPathTo(v)) 
for (int x : search.pathTo(v)) 
if (Xx == Ss) StdOut print(Cx), 
else StdOut.print("-" + Xx); 
Staqd0uee pmntel (号 
} 
} 


Paths 实 现 的 测试 用 例 


上 一 页 右 下 角 框 注 中 的 用 例 从 输入 流 中 读 取 了 一 个 


到 与 它 连 通 的 每 个 顶点 之 间 的 一 条 路 径 。 


4.1.4.1 


实现 
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图 并 从 命令 行 得 到 一 个 起 点 ， 然 后 打印 出 从 起 点 


算法 4.1 基于 深度 优先 搜索 实现 了 Paths。 它 扩展 了 4.1.3.2 节 中 的 热身 代码 DepthFirs- 
tSearch， 添 加 了 一 个 实例 变量 edgeTo[] 整 型 数组 来 起 到 Tremaux 搜索 中 绳子 的 作用 。 这 个 数组 


可 以 找到 从 每 个 与 s 连通 的 顶点 回 到 s 的 路 径 。 它 会 记 住 每 个 顶点 到 起 点 的 路 径 ， 而 不 是 记录 当前 
顶点 到 起 点 的 路 径 。 为 了 做 到 这 一 点 ， 在 由 边 v-w 第 一 次 访问 任意 w 时 ,将 edgeTo[w] 设 为 v 来 


记 住 这 条 路 径 。 换 名 话说 ，v-w 是 从 s 到 w 的 路 径 上 的 最 后 一 条 已 知 的 边 。 这 样 ， 搜 索 的 结果 是 一 


棵 以 起 点 为 根 结 点 的 树 ，edgeTo[] 是 一 


棵 由 父 链接 表示 的 树 。 算 法 4.1 的 代码 的 右 侧 是 一 个 小 示 


例 。 要 找 出 s 到 任意 顶点 v 的 路 径 , 算法 4.1 实现 的 pathTo() 方法 用 变量 x 遍历 整 棵 树 ， 将 x 设 
为 edgeTo[x] ， 就 像 1.5 节 中 的 union-find 算法 一 样 ， 然 后 在 到 达 s 之 前 ,将 遇 到 的 所 有 顶点 都 压 
入 栈 中 。 将 这 个 栈 返回 为 一 个 Iterable 对 象 帮助 用 例 遍 历 s 到 v 的 路 径 。 


算法 4.1 


使 用 深度 优先 搜索 查找 图 中 的 路 径 


public class DepthFirstPaths 


{ 


private boolean[] marked; // 这 个 顶点 上 调用 过 dfs() 了 吗 ? 
private int[] edgeTo; // 从 起 点 到 一 个 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; // 起 点 


public DepthFirstPaths(Graph GCG, int s) 


marked = new boolean[G.VOJ]; 
edgeTo = new int[G.VO]; 
this.s = s; 

dfs(G, s); 

3 

private void dfs(Graph G, int v) edgeTo[] 

{ © 0 9 
marked[v] = true; OO 于 | 光 QO) 
for (int w : G.adj(v)) | 210 

i ked[w]) © @ ;lO 
i Imarked[w 4|13 
5 13 二 (5) 

{ X 路径 

edgeTo[w] = v; 3 3 

dfs(G, w); 2 235 
} 0 0235 

} 
athTo(5) 的 计算 轨迹 

public boolean hasPathTo(int v) Pp (5) 算 

{ return marked[v]; } 

public Iterable<Integer> pathTo(int v) 

{ 
if (!hasPathTo(v)) return null; 

Stack<Integer> path = new Stack<Integer>() ; 

for (int x = VvV; x !l= s; x = edgeTo[x]) 

path .push (x); 
path.push(s); 
return path ; 
} 

} 
这 段 Graph 的 用 例 使 用 了 深度 优先 搜索 ， 以 找 出 图 中 从 给 定 的 起 点 s 到 它 连 通 的 所 有 顶点 的 路 径 。 
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来 自 DepthFirstsearch (4.1.3.2 市 ) 的 代码 均 为 灰色 。 为 了 保存 到 达 每 个 顶点 的 已 知 路 径 ， 这 段 代码 
使 用 了 一 个 以 顶点 编号 为 索引 的 数组 edgeTo[] ，edgeTo[w]=v 表示 v-w 是 第 一 次 访问 w 时 经 过 的 边 。 
536| edgeTo[] 数组 是 一 棵 用 父 链接 表示 的 以 s 为 根 且 含有 所 有 与 s 连通 的 顶点 的 树 。 


十 


4.1.4.2 ”详细 轨迹 
图 4.1.15 显示 的 是 示例 中 每 个 顶点 被 标记 edgeTo[] 

后 edgeTo[] 的 内 容 ， 超 点 为 顶点 0。marked[] dfs(O) 

和 adj[] 的 内 容 与 4.1.3.5 节 中 的 DepthFirst- 

Search 的 轨迹 相同 ， 递 归 调 用 和 边 检 查 的 详细 

描述 也 完全 一 样 ， 这 里 不 再 歼 述 。 深 度 优 先 搜索 


问 edgeTo[] 数组 中 顺序 添加 了 0-2、2-1、2-3、 dfs(2) 
3-5 和 3-4。 这 些 边 构成 了 一 棵 以 起 点 为 根 结 点 0 
的 树 并 提供 了 pathTo0 方法 所 需 的 信息 ， 使 得 
调用 者 可 以 按照 前 文 所 述 的 方法 找到 从 0 到 顶点 
1、2、3、4、5 的 路 径 。 本 
DepthFirstPaths 与 DepthFirstSearch 
的 构造 函数 仅 有 几 条 赋值 语句 不 同 ， 因 此 4.1.3.2 1 完成 
节 中 的 命题 A 仍 然 适用 。 另 外 , 我 们 还 有 以 下 命题 。 
dfs(3) 
命题 A ( 续 ) 。 使 用 深度 优先 搜索 得 到 从 给 
定 起 点 到 任意 标记 顶点 的 路 径 所 需 的 时 间 与 
路 径 的 长 度 成 正比 。 
证 明 。 根 据 对 已 经 访问 过 的 顶点 数量 的 归纳 urs(9) 
可 得 ，DepthFirstPaths 中 的 edgeTo[] 数 
组 表示 了 一 棵 以 起 点 为 根 结 点 的 树 。path- 5 成 
To 方法 构造 路 径 所 需 的 时 间 和 路 径 的 长 度 
7 “wo @ om 
| i 
4.1.5 ”广度 优先 搜索 2 DG 4|3 
深度 优先 搜索 得 到 的 路 径 不 仅 取决 于 图 的 结 名 < 
构 ， 还 取决 于 图 的 表示 和 递归 调用 的 性 质 。 我 们 
很 自然 地 还 经 常 对 下 面 这 些 问题 感 兴趣 。 oo 


单 点 最 短路 径 。 给 定 一 幅 图 和 一 个 起 点 s， (2) 
回答 “从 5 到 给 定 目 的 顶点 V 是 否 存 在 一 条 路 径 ? (D js 
如 果 有 , 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 ) 。” @ (3) 

等 类 似 问 题 。 
解决 这 个 问题 的 经 典 方法 叫做 广度 优先 搜索 。 图 4.1.15 使 用 深度 优先 搜索 的 轨迹 ,寻找 所 有 
(BFS)。 它 也 是 许多 图 算法 的 基石 ， 因 此 我 们 会 人 


wm 上 wmN 
wwN ODN 
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整个 图 的 顺序 和 找 出 最 短路 径 的 目标 没有 任何 关系 。 相 比 之 下 ， 广 度 优先 搜 
索 正 是 为 了 这 个 目标 才 出 现 的 。 要 找到 从 s 到 v 的 最 短路 径 ， 从 s 开始 ,在 
所 有 由 一 条 边 就 可 以 到 达 的 项 点 中 寻找 v， 如 果 找 不 到 我 们 就 继续 在 与 s 中 
离 两 条 边 的 所 有 顶点 中 查找 v， 如 此 一 直 进 行 。 深 度 优先 搜索 就 好 像 是 一 个 NA 


在 本 节 中 详细 学 习 。 深 度 优先 搜索 在 这 个 问题 上 没有 什么 作为 ， 因 为 它 遍 历 眉 


人 在 走 迷 宫 ， 广 度 优先 搜索 则 好 像 是 一 组 人 在 一 起 朝 各 个 方向 走 这 座 迷 宫 ， 
每 个 人 都 有 自己 的 绳子 。 当 出 现 新 的 又 路 时 ， 可 以 假设 一 个 探索 者 可 以 分 裂 
为 更 多 的 人 来 搜索 它们 ， 当 两 个 探索 者 相遇 时 ， 会 合 二 为 一 〈 并 继续 使 用 先 


到 达 者 的 绳子 ) ， 参 见 图 4.1.16。 ES 
在 程序 中 ， 在 搜索 一 幅 图 时 遇 到 有 多 条 边 需 要 遍历 的 情况 时 ， 我 们 会 NA 
选择 其 中 一 条 并 将 其 他 通道 留 到 以 后 再 继续 搜索 。 在 深度 优先 搜索 中 ， 我 们 
用 了 一 个 可 以 下 压 的 栈 (这 是 由 系统 管理 的 ， 以 支持 递归 搜索 方法 ) 。 使 用 


LIFO (后 进 先 出 ) 的 规则 来 描述 压 栈 和 走 迷 宫 时 先 探索 相 邻 的 通道 类 似 。 从 ”图 41.16 
有 待 搜索 的 通道 中 选择 最 晚 遇 到 过 的 那 条 。 在 广度 优先 搜索 中 ,我 们 希望 按 言 搜索 


照 与 起 点 的 距离 的 顺序 来 遍历 所 有 项 点 ， 看 起 来 这 种 顺序 很 容易 实现 : 使 用 
(FIFO， 先 进 先 出 ) 队列 来 代替 栈 (LIFO， 后 进 先 出 ) 即 可 。 我 们 将 从 有 待 搜索 的 通道 中 选择 最 
早 遇 到 的 那 条 。 

实现 

算法 4.2 实现 了 广度 优先 搜索 算法 。 它 使 用 了 一 个 队列 来 保存 所 有 已 经 被 标记 过 但 其 邻接 表 还 
未 被 检查 过 的 顶点 。 先 将 起 点 加 入 队列 ， 然 后 重复 以 下 步骤 直到 队列 为 空 : 
口 取 队 列 中 的 下 一 个 顶点 v 并 标记 它 ; 
口 将 与 v 相 邻 的 所 有 未 被 标记 过 的 顶点 加 入 队列 。 538 
算法 4.2 中 的 bfs 0 方法 不 是 递归 的 。 不 像 递 归 中 隐 式 使 用 的 栈 ， 它 显 式 地 使 用 了 一 个 队列 。 
和 深度 优先 搜索 一 样 , 它 的 结果 也 是 一 个 数组 edgeTo[] , 也 是 一 棵 用 父 链接 表示 的 根 结 点 为 s 的 树 。 
它 表示 了 s 到 每 个 与 s 连通 的 顶点 的 最 得 路径 。 用 例 也 可 以 使 用 算法 4.1 中 为 深度 优先 搜索 实现 的 
相同 的 pathTo0Q 方法 得 到 这 些 路 径 。 
图 4.1.17 和 图 4.1.18 显示 了 用 广度 优先 搜索 

edgeTo[] 

处 理 样 图 时 ,算法 使 用 的 数据 结构 在 每 次 循环 的 ””@ (2) QQ 
迭代 开始 时 的 内 容 。 首 先 ， 顶 点 0 被 加 入 队列 ， DD) gf OB 
然后 循环 开始 搜索 。 Gy-— fi OW 

口 从 队列 中 删 去 顶点 0 并 将 它 的 相 邻 顶点 2、 

1 和 5 加 入 队列 中 ， 标 记 它们 并 分 别 将 它 图 4.1.17 0 
们 在 edgeTo[] 中 的 值 设 为 0。 
口 从 队列 中 删 去 顶点 2 并 检查 它 的 相 邻 顶点 0 和 1， 发 现 两 者 都 已 经 被 标记 。 将 相 邻 的 顶点 3 
和 4 加 入 队列 ， 标 记 它 们 并 分 别 将 它们 在 edgeTo[] 中 的 值 设 为 2。 
口 从 队列 中 删 去 顶点 1 并 检查 它 的 相 邻 项 点 0 和 2， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 5 并 检查 它 的 相 邻 顶点 3 和 0， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 3 并 检查 它 的 相 邻 顶点 5、4 和 2， 发 现 它们 都 已 经 被 标记 了 。 
口 从 队列 中 删 去 顶点 4 并 检查 它 的 相 邻 顶 点 3 和 2， 发 现 它们 都 已 经 被 标记 了 。 


mm 上 wb 口 
CPPD 
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queue marked[] edgeTo[] adj 
0 01T 0 01215 
2 1 1 1|02 
210134 
3 3 3|1542 
4 4 4132 
@) 5 5 5130 
2 0 0 0 
: I 1 
5 2 210 210134 
| (WV 3 3 3 542 
4 4 4|32 
(5) (3) 5 510 5130 
1 0 0 0 
5 TS 2 1|T 1|0 1|02 
3 C1) 2|T 2 0 2 
4 3 3|2 3 542 
1 © 4 4 |T 4|2 4132 
(5) (4) 51T 5lo 513 0 
5 0 0 0 
3 (0 9 1 110 1 
2 2 0 2 
| oo] 3 | 3|2 3|542 
4 4|2 4|3 2 
(5) (3) (4) 5 5lo 5l30 
3 0 1T 0 0 
4 on p22 1|t 1 0 1 
2|T 2 | 0 2 
(9 | 3|T 3|2 3 542 
4|T 4|2 4132 
(5) 3) (4) 511 510 5 
4 0 0 0 
(0 9 1 1 0 1 
2|T 2 | 0 2 
(9 | 3 3| 2 3 
4 4|2 4132 
(5) 日 (4) 511 510 5 


图 4.1.18 ”使 用 广度 优先 搜索 的 轨迹 ， 寻 找 所 有 起 点 为 0 的 路 径 ( 另 


算法 4.2 ”使 用 广度 优先 搜索 查找 图 中 的 路 径 


见 3 


到 
不 2 


插 ) 


public class BreadthFirstPaths 


{ 


private boolean[] marked; // 到 达 该 顶点 的 最 短路 径 已 知 吗 ? 
private int[] edgeTo; // 到 达 该 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; // 起 点 


public BreadthFirstPaths(Graph G, int s) 
{ 

marked = new boolean[G.VO]; 

edgeTo = new int[G.VO]; 

this.s = s; 

bfs(G, s); 
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private void bfs(Graph G, int s) 


{ 
Queue<Integer> queue = new Queue<Integer>O; 
marked[s] = true; // 标记 起 点 
dueue .enqueue(s) ; // 将 它 加 入 队列 
while (!queue.isEmpty()) 
{ 
int v = queue.dequeue(); // 从 队列 中 删 去 下 一 顶点 
for (int w : G.adj(v)) 
if (!marked[w]) // 对 于 每 个 未 被 标记 的 相 邻 顶点 
{ 
edgeTo[w] = v; // 保存 最 短路 径 的 最 后 一 条 边 
marked[w] = true; // 标记 它 ， 因 为 最 短路 径 已 知 
queue.enqueue(w); // 并 将 它 添加 到 队列 中 
} 
} % java BreadthFirstPaths 
} tinyCG.txt 0 
OtornQ 0 
public boolean hasPathTo(int v) 0 Te 0 
{ return marked[v]; } ORton2 0 
public Iterable<Integer> pathTo(int v) . 人 人 2 
深度 优 索 中 的 实现 相同 (请 见 算法 4. A 
// 和 深度 优先 搜索 中 的 实现 相同 ( 请 见 算法 4.1 ) OE es 
} 
这 段 Graph 的 用 例 使 用 了 广度 优先 搜索 ， 以 找 出 图 中 从 构造 函数 得 到 的 起 点 s 到 与 其 他 所 有 顶点 的 


最 短路 径 。bfs 0 方法 会 标记 所 有 与 s 连通 的 顶点 ， 因 此 用 例 可 以 调用 hasPathTo() 来 判定 一 个 顶点 与 
s 是 否 连通 并 使 用 pathToQ 得 到 一 条 从 s 到 v 的 路 径 ， 确 保 没 有 其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 
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对 于 这 个 例子 来 说 ，edgeTo[] 数组 在 第 二 步 之 后 就 已 经 完成 了 。 和 深度 优先 搜索 一 样 ， 一旦 
所 有 的 顶点 都 已 经 被 标记 ， 余 下 的 计算 工作 就 只 是 在 检查 连接 到 各 个 已 被 标记 的 顶点 的 边 而 已 。 


命题 B。 对 于 从 s 可 达 的 任意 顶点 v, 广度 优先 搜索 都 能 找到 一 条 从 s 到 v 的 最 短路 径 (没有 
其 他 从 s 到 Vv 的 路 径 所 含 的 边 比 这 条 路 径 更 少 ) 。 


证 明 。 由 归纳 易 得 队列 总 是 包含 零 个 或 多 个 到 起 点 的 距离 为 的 顶点 ， 之 后 是 零 个 或 多 个 到 起 
点 的 距离 为 ktl 的 顶点 ， 其 中 为 整数 ， 起 始 值 为 0。 这 意味 着 顶点 是 按照 它们 和 和 s 的 距离 的 
顺序 加 入 或 者 离开 队列 的 。 从 顶点 v 加 入 队列 到 它 离开 队列 之 前 ,不 可 能 找 出 到 v 的 更 短 的 路 径 ， 
而 在 v 离开 队列 之 后 发 现 的 所 有 能 够 到 达 v 的 路 径 都 不 可 能 短 于 Vv 在 树 中 的 路 径 长 度 。 


命题 B〈 续 ) 。 广 上 度 优先 搜索 所 需 的 时 间 在 最 坏 情 况 下 和 V+tE 成 正比 。 


证 明 。 和 命题 A 一 样 (请 见 4.1.3.2 节 ) ,广度 优先 搜索 标记 所 有 与 s 连通 的 顶点 所 需 的 时 间 也 
与 它们 的 度数 之 和 成 正比 。 如 果 图 是 连通 的 ， 这 个 和 就 是 所 有 顶点 的 度数 之 和 ， 也 就 是 2E。 


注意 ,我 们 也 可 以 用 广度 优先 搜索 来 实现 已 经 用 深度 优先 搜索 实现 的 Search API， 因 为 它 检 
查 所 有 与 起 点 连通 的 顶点 和 边 的 方法 只 取决 于 查找 的 能 
我 们 在 本 音 开 头 说 过 ， 深 度 优先 搜索 和 广度 优先 搜索 是 我 们 首先 学 习 的 儿 种 通用 的 图 搜索 的 算 
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法 之 一 。 在 搜索 中 我 们 都 会 先 将 
起 点 存 人 数据 结构 中 ， 然 后 重复 
以 下 步骤 直到 数据 结构 被 清空 : 
口 取 其 中 的 下 一 个 顶点 并 标 
记 它 ; 
口 将 v 的 所 有 相 邻 而 又 未 被 
标记 的 顶点 加 入 数据 结构 。 

这 两 个 算法 的 不 同 之 处 仅 在 
于 从 数据 结构 中 获取 下 一 个 顶点 
的 规则 ( 对 于 广度 优先 搜索 来 说 
是 最 早 加 入 的 顶点 ， 对 于 深度 
优先 搜索 来 说 是 最 晚 加 入 的 顶 
点 ) 。 这 种 差异 得 到 了 处 理 图 的 
两 种 完全 不 同 的 视角 ， 尽 管 无 论 
使 用 哪 种 规则 ， 所 有 与 起 点 连通 
的 顶点 和 边 都 会 被 检查 到 。 

图 4.1.19 和 图 4.1.20 显 示 
了 深度 优先 搜索 和 广度 优先 搜索 
处 理 样 图 mediumG.txt 的 过 程 ， 
它们 清晰 地 展示 了 两 种 方法 中 搜 
索 路 径 的 不 同 。 深 度 优先 搜索 不 
断 深入 图 中 并 在 栈 中 保存 了 所 有 
分 叉 的 顶点 ; 广度 优先 搜索 则 像 
书面 一 般 扫 描 图 ， 用 一 个 队列 保 
存 访问 过 的 最 前 端的 项 点。 深度 
优先 搜索 探索 一 幅 图 的 方式 是 寻 
找 离 起 点 更 远 的 顶点 ， 只 在 碰 到 
死胡同 时 才 访 问 近 处 的 顶点 ; 广 
度 优先 搜索 则 会 首先 覆盖 起 点 附 
近 的 顶点 ， 只 在 临近 的 所 有 顶点 
都 被 访问 了 之 后 才 向 前 进 。 深 度 
优先 搜索 的 路 径 通常 较 长 而 且 曲 
折 ， 广 度 优先 搜索 的 路 径 则 短 而 
直接 。 根 据 应 用 的 不 同 ， 所 需要 
的 性 质 也 会 有 所 不 同 (也 许 路 径 
的 性 质 也 会 变 得 无 关 紧 要 ) 。 在 
4.4 节 中 ， 我 们 会 学 习 Paths 的 
API 的 其 他 实现 来 寻找 有 特定 属 


20% 


40% 


图 4.1.19 ”使 用 深度 优先 搜索 查 
找 路 径 (250 个 顶点 ) 


图 4.1.20 ”使 用 广度 优先 搜索 查找 
最 短路 径 (250 个 顶点 ) 
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4.1.6 连通 分 量 

深度 优先 搜索 的 下 一 个 直接 应 用 就 是 找 出 一 幅 图 的 所 有 连通 分 量 。 回 忆 1.5 节 中 “与 …… 连 通 ” 
是 一 种 等 价 关 系 ， 它 能 够 将 所 有 顶点 切 分 为 等 价 类 ( 连通 分 量 ) 。 对 于 这 个 常见 的 任务 ， 我 们 定义 
如 下 API (请 见 表 4.1.6 ) 。 


表 4.1.6 连通 分 量 的 API 
public class CC 


CCCGraph ©) 预 处 理 构造 函数 
boolean connected(int v, int w) Vv 和 w 连通 吗 
int count() 连通 分 量 数 
int idCint v) v 所 在 的 连通 分 量 的 标识 符 (0 ~ countGO-1) 


用 例 可 以 用 idQ 方法 将 连通 分 量 用 数组 保存 ， 如 框 注 中 的 用 例 所 示 。 它 能 够 从 标准 输入 中 读 


取 一 幅 图 并 打印 其 中 的 连通 分 量 数 ， 其 后 是 每 个 子 图 中 的 所 有 顶点 ,每 行 一 个 子 图 。 为 了 实现 这 些 ， 
它 使 用 了 一 个 Bag 对 象 数 组 ， 然 后 用 每 个 项 点 所 在 的 子 图 的 标识 符 作 为 数组 的 索引 ， 以 将 所 有 顶点 


加 入 相应 的 Bag 对 象 中 。 当 我 们 希望 独立 处 理 每 个 连通 分 量 时 这 个 用 例 就 是 一 个 模型 。 
4.1.6.1 实现 
和 实现 (请 见 算 ; 
CC 的 实现 〈 请 见 算法 43 ) 使 用 了 public static void main(String[] args) 
marked[] 数组 来 寻找 一 个 顶点 作为 每 个 { 


连通 分 量 中 深度 优先 搜索 的 起 点 。 递 归 ee 
的 深度 优先 搜索 第 一 次 调用 的 参数 是 顶 , 
ee a int M = cc.count() ; 

点 0 一 一 它 会 标记 所 有 与 0 连通 的 顶点 。 StdOut.print1in(M + " components"); 
然后 构造 函数 中 的 for 循环 会 查找 每 个 ee 
没有 被 标记 的 顶点 并 递归 调用 dfs QO) 来 RN = 0 new Bag[M] ; 
ee a A Or me 0 < Ms 
标记 和 它 相 邻 的 所 有 顶点。 另外 ， 它 components[i] = new Bag<Integer>(); 
还 使 用 了 一 个 以 顶点 作为 索引 的 数组 for (int v = 0; v < G.VO; vtn 
区 、 components[cc.id(v)] .add(v); 
id[] ， 将 同一 个 连通 分 量 中 的 顶点 和 连 for (Cint 1 = 0; 1 < M;: i++) 
通 分 量 的 标识 符 关 联 起 来 (int 值 ) 。 这 { a a 

i 要 本 or (int v: components [1 
个 数组 使 得 connected0 方法 的 实现 变 StdOut.print(v + " "); 
得 十 分 简单 ， 和 1.5 节 中 的 connectedQ) StdOut peuntlin( 


方法 完全 相同 ( 只 需 检 查 标识 符 是 否 相 。 } 
同 ) 。 这 里 ， 标 识 符 0 会 被 赋予 第 一 个 


连通 分 量 中 的 所 有 顶点 ，1 会 被 赋予 第 二 查找 连通 分 量 API 的 测试 用 例 543 
个 连通 分 量 中 的 所 有 顶点 ， 依 此 类 推 。 这 样 所 有 的 标识 符 都 会 如 API 中 指定 的 那样 在 0 到 countO 〇 -1 


之 间 。 这 个 约定 使 得 以 子 图 作为 索引 的 数组 成 为 可 能 ， 如 右 侧 框 注 用 例 所 示 。 
算法 4.3 ”使 用 深度 优先 搜索 找 出 图 中 的 所 有 连通 分 量 


public class CC 

{ 
private boolean[] marked; 
private int[] id; 
private int count; 
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public CC(Graph 0G) 
{ 


marked = new boolean[G.VO]; 


id = new int[G.VO]; 


for (int s = 0; s < G.VO; s++) 


if (!marked[s]) 


dfs(G, s); 
Count++; 
} 
} 


private void dfs(Graph G, int v) 


marked[v] = true; 
id[v] = count; 
for (int w : G.adj(v)) 
if (!marked[w]) 
dfs(G, w); 
二 


public boolean connected(int v, int w) 


{ return id[v] == id[w]; 


public int idCint v) 
{ return id[v]; 了 


public int count() 
{ return count; } 


} 


% java Graph tinyG.txt 
13 vertices，13 edges 
OE.6 215 


加 oovioOnwm 上 wm 
oO OW OS 
心 上 口上 
Ou 


% java CC tinyG.txt 
3 components 

685 .490320 180 

87 

2 I lO Se) 


这 段 Graph 的 用 例 使 得 它 的 用 例 可 以 独立 处 理 一 幅 图 中 的 每 个 连通 分 量 。 来 自 DepthfirstSearch 
(请 见 4.1.3.2 节 ) 的 代码 均 为 灰色 。 这 里 的 实现 是 基于 一 个 上 


连通 分 量 ， 


日 顶 ， 
则 id[v] 的 值 为 1。 构 造 函 数 会 找 出 一 个 未 被 标记 的 顶点 并 调用 递归 函数 dfs Q 来 标记 并 区 
分 出 所 有 和 它 连 通 的 顶点 ， 如 此 重复 直到 所 有 的 顶点 都 被 标记 并 


点 索引 的 数组 id[] 。 如 果 v 属于 第 i 个 


区 分 。connected()、count() 和 idO) 


方法 的 实现 非常 简单 ( 男 见 图 4.1.21 ) 。 


命题 C。 深 度 优先 搜索 的 预 处 理 使 用 的 时 间 和 空间 与 儿 E 成 正比 且 可 以 在 常数 时 间 内 处 理 关 于 


图 的 连通 性 查询 。 


大 


证 明 。 由 代码 可 以 知道 每 个 邻接 表 的 元 素 都 只 会 被 检查 
返回 


实例 方法 会 检查 或 者 


4.1.6.2 union-find 算法 


CC 中 基于 深度 优先 搜索 来 解决 图 
劣 ” 理论 上 ， 深 度 优先 搜索 比 union-find 算法 快 ， 因 为 


二 个 或 两 个 变 广 。 


全 已 


已 有 


次 ， 共 有 2 个 元 素 (每 条 边 两 个 ) 。 


连通 性 问题 的 方法 与 第 1 章 中 的 union-find 算法 相 比 熟 优 就 
保证 所 需 的 时 间 是 常数 而 union-find 算 


法 不 行 ; 但 在 实际 应 用 中 ， 这 点 差异 微不足道 。union-find 算法 其 实 更 快 ， 因 为 它 不 需要 完整 地 构 
造 并 表示 一 幅 图 。 更 重要 的 是 ，union-find 算法 是 一 种 动态 算法 〈 我 们 在 任何 时 候 都 能 用 接近 常数 
的 时 间 检 查 两 个 项 点 是 否 连 通 ， 其 至 是 在 添加 一 条 边 的 时 候 ) ， 但 深度 优先 搜索 则 必须 要 对 图 进行 
预 处 理 。 因 此 ， 我 们 在 完成 只 需要 判断 连通 性 或 是 需要 完成 有 大 量 连 通 性 查询 和 插入 操作 混合 等 类 


似 的 任务 时 ， 更 倾向 使 用 union-find 算法 ， 而 深度 优 


它 能 更 有 效 地 利用 已 有 的 数据 结构 。 


Et 搜索 则 更 适合 实现 图 的 抽象 数据 类 型 ， 因 为 


tinyG. txt 


marked[] 


id[] 
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dfs(0) 0 
dfs(6) 0 
检查 0 
dfs(4) 0 
dfs(5) 0 
dfs(3) 0 
检查 5 
愉 查 4 
3 完成 
检查 4 
检查 0 
5 完成 
检查 6 
检查 3 
4 完成 
6 完成 
dfs(2) 0 
检查 0 
2 完成 
dfs(1) 0 
检查 0 
1 完成 
检查 5 
0 完成 
dfs(7) 1 
dfs(8) 1 
检查 7 
8 完成 
7 完成 
dfs(9) 2 
dfs(11) 2 
检查 9 
dfs(12) 2 
检查 11 
检查 9 
12 完成 
11 完成 
dfs(10) 2 
检查 9 
10 完成 
检查 12 
9 完成 
图 4.1.21 


双色 问题 。 能 够 用 两 种 颜色 将 


O12345678 9101112 


T i 


TT 


下 省 下 下 汪汪 


江 - 王 和 下 下 和 汪汪 
TE 


入 
La 汪汪 T 


TTT i 


TTTTETTTTTT, TTT 


O01L2345678 


0 

0 0 
0 0 0 
0 000 
0 0000 


人 和 闪闪 写 放 


0000000 


00000001 
000000L1 


000000011 2 
0000000 工 十 汪 


0000000112 


O0000000112 


使 用 深度 优先 搜索 寻找 所 有 连通 分 量 的 轨迹 
我 们 已 经 用 深度 优先 搜索 解决 了 几 个 非常 基础 的 问题 。 这 种 方法 很 简单 ， 递 归 实 现 使 我 们 能 够 进行 
复杂 的 运算 并 为 一 些 图 的 处 理 问题 给 出 简洁 的 解决 方法 。 在 表 4.1.7 中 , 我 们 为 下 面 两 个 问题 作出 了 解答 。 
检测 环 。 给 定 的 图 是 无 环 图 吗 ? 


吗 ? 这 个 问题 也 等 价 于 : 这 是 一 幅 二 分 图 吗 ? 


深度 优先 搜索 和 已 学 习 过 的 其 他 算法 一 样 , 它 简洁 的 代码 下 隐藏 着 复杂 的 计算 。 因 此 ,研究 这 些 例 子 、 
在 样 图 中 跟踪 算法 的 轨迹 并 加 以 扩展 、 用 算法 来 解决 环 和 着 色 的 问题 都 是 非常 值得 的 留 作 练习 ) 。 


9101112 


2 


22 


22 2 


图 的 所 有 顶点 着 色 ， 使 得 任意 一 条 边 的 两 个 端点 的 颜色 都 不 相同 
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表 4.1.7 使 用 深度 优先 搜索 处 理 图 的 其 他 示例 


任 务 实 现 
G 是 无 环 图 吗 ? ( 假设 不 存在 public class Cycle 
习 环 或 平行 边 ) { 


private boolean[] marked; 
private boolean hasCycle; 
public Cycle(Graph ©O) 


{ 
marked = new boolean[G.VO]J; 
for (int s = 0; s < G.VO; s++) 
if (!marked[s]) 
dfs(G, s, s); 
. 


private void dfs(Graph GCG, int v, int u) 


marked[v] = true; 
for (int w : G.adj(v)) 
if (!marked[w]) 
dfs(G, w, Vv); 
else if (w != u) hasCycle = true; 


} 


public boolean hasCycle() 
{ return hasCycle; } 


} 
G 是 二 分 图 吗 ? (双色 问题 ) ” public class TwoColor 
{ 
private boolean[] marked; 
private boolean[] color; 
private boolean isTwoColorable = true; 
public TwoColor(Graph GD) 
{ 
marked = new boolean[G.VO]; 
color = new boolean[G.VO]; 
for (int s = 0; s < G.VO; s++) 
if (!marked[s]) 
dfs(G, s); 
} 
private void dfs(Graph G, int v) 
marked[v] = true; 
for (int w : G.adj(v)) 
if (!marked[w]) 
{ 
color[w] = !color[v]; 
dfs(G, w); 
} 
else if (color[w] == color[v]) isTwoColorable = false; 
} 
public boolean isBipartite() 
{ return isTwoColorable; } 
547 } 


4.1.7 ”符号 图 

在 典型 应 用 中 , 图 都 是 通过 文件 或 者 网 页 定义 的 , 使 用 的 是 字符 串 而 非 整 数 来 表示 和 指 代 顶 点 。 
为 了 适应 这 样 的 应 用 ,我们 定义 了 拥有 以 下 性 质 的 输入 格式 : 

口 顶点 名 为 字符 串 ; 
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D 用 指定 的 分 隔 符 来 隔 开 顶点 名 ( 允许 顶点 名 routesbxt 没有 显 趟 的 
中 含有 空格 ) ; Be 指定 7 有 HE 的 值 
口 每 一 行 都 表示 一 组 边 的 集合 ， 每 一 条 边 都 连 
接着 这 一 行 的 第 一 个 名 称 表示 的 顶点 和 其 他 JFK ATL 
名 称 所 表示 的 顶点 ; ia 
口 顶点 总 数 天 和 边 的 总 数 已 都 是 隐 式 定义 的 。 人 
图 4.1.22 是 一 个 简单 的 示例 。routes.txt 文件 表示 PHX LAX 
的 是 一 个 小 型 运输 系统 的 模型 ， 其 中 表示 每 个 顶点 的 和 
是 美国 机 场 的 代码 ， 连 接 它们 的 边 则 表示 顶点 之 间 的 a or 
航线 。 文 件 只 是 一 组 边 的 列表 。 图 4.1.23 所 示 的 是 一 LAS LAX 于 
A . a ATL MCO ”为 分 隔 符 
个 更 庞大 的 例子 ， 取 自 movies.txt， 即 3.5 节 中 介绍 HOU MCO 
的 互联 网 电影 数据 库 。 还 记得 吗 ? 这 个 文件 的 每 一 行 LSP 
都 列 出 了 一 个 电影 名 以 及 出 演 该 部 电影 的 一 系列 演 
员 。 从 图 的 角度 来 说 ， 我 们 可 以 将 它 看 作 一 幅 图 的 定 图 4.1.22 ”符号 图 示例 ( 边 的 列表 ) 
义 ， 电影 和 演员 都 是 顶点 ， 而 邻接 表 中 的 每 一 条 边 都 
将 电影 和 它 的 表演 者 联系 起 来 。 注 意 ， 这 是 一 幅 二 分 图 一 一 电影 顶点 之 间或 者 演员 结 点 之 间 都 没有 边 
相连 。 
4.1.7.1 API 


表 4.1.8 中 ，API 定义 的 Graph 用 例 可 以 直接 使 用 已 有 的 


图 算法 来 处 理 这 种 文件 定义 的 图 。 


Ar 号 


表 4.1.8 用 
public class Symbolcraph 


符号 作为 顶点 名 的 图 的 API 


SymbolGraph(String filename, 
String delim) 
boolean contains(String key) 
int index(String key) 
String name(int v) 


Graph GO 


这 份 API 定义 了 一 个 构造 函数 来 读 取 并 构造 图 ， 
顶点 名 和 图 算法 使 用 的 顶点 索引 对 应 起 来 。 
4.1.7.2 测试 用 例 


根据 filename 指定 的 文件 构造 图 ， 使 用 de1im 来 分 
key 是 一 个 顶点 吗 

Key 的 索引 

索引 v 的 顶点 名 

隐藏 的 Graph 对 象 
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j name() 方法 和 index0Q 方法 将 输入 流 中 的 


下 一 页 框 注 所 示 的 是 符号 图 的 测试 用 例 ， 它 用 第 一 个 命令 行 参 数 指定 的 文件 ( 第 二 个 命令 行 参 


数 指定 了 分 隔 符 ) 来 构造 一 幅 图 并 从 标准 输入 接受 查询 。 


j 户 可 以 输入 一 个 顶点 名 并 得 到 该 顶点 的 


相 邻 结 点 的 列表 。 这 个 用 例 提 供 的 正好 是 3.5 节 中 研究 过 的 反 向 索引 的 功能 。 以 routes.txt 为 例 ， 你 
可 以 输入 一 个 机 场 的 代码 来 查找 能 从 该 机 场 直 飞 到 达 的 城市 ， 但 这 些 信息 并 不 是 直接 就 能 从 文件 中 


得 到 的 。 对 于 movies.txt， 你 可 以 输入 一 个 演员 的 名 字 来 查看 数据 库 中 他 所 出 演 的 影片 列表 。 输 入 
一 部 电影 的 名 字 来 得 到 它 的 演员 列表 ， 这 不 过 是 在 照搬 文件 中 对 应 行 数据 ， 但 输入 演员 的 名 字 来 得 


到 影片 的 列表 则 相当 于 查找 反 向 索引 。 
同时 也 意味 着 将 演员 连接 到 电影 名 。 二 分 图 的 性 质 自 


成 为 处 理 更 复杂 的 和 图 有 关 的 问题 的 基础 。 


尽管 数据 库 的 构造 是 为 了 将 电影 名 连接 到 演员 ， 二 分 图 模型 


动 完 成 了 反 向 索引 。 以 后 我 们 将 会 看 到 ， 这 将 


354 PE 


一 全 


一 Caligola 


Patrick 
Allen 


| 
Dial M 
for Murder 


入 / 
Glenn The Stepford|_ 
Close Wives 


Portrait 
Nicole 
Kidman 


Va 
; a 


The Eagle 
Has Landed 


7/ 到 


of a Lady 


Lloyd 
Bridges 


Murder on the [一 
Orient Express oid Donaid SN 
pe SN oa Sutherland Kathleen Joe Versus 
bs Quinlan he Volcano| 
An American John Animal 泌 员 


/| 


Apollo 13| 
Vernon 
Dobtcheff 


ay wild 
电影 名 cl The River 
wild 下 
Vinci Code 
Mery1 
Wilson 


Eternal Sunshine 
of the Spotless 


movies .txt 


er Shane 


Zaza 
Mind 


没有 显 式 的 
了 一 指定 7 和 ZE 的 值 


Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... /Geppi, Cindy/Hershey, Barbara... 


Tirez sur le pianiste (1960)/Heymann, Claude/.../Berger, Nicole (I1). 


Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/.../Winslet, Kate/... 


Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/.../McEwan, Geraldine 


To 
To 
To 
To 


Be or Not to Be (1942)/Verebes, Erne (1I)/.../Lombard, Carole (1)... 
Be or Not to Be (1983)/.../Brooks, Mel (1)/.../Bancroft, Anne/... 


Catch a Thief (1955)/Paris, Manuel/.../Grant, Cary/.../Kelly, Grace/... 


Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/.../ Tucci, Maria... 


电影 名 演员 


加 


4.1.23 ”符号 图 示例 (邻接 表 ) 


public static void main(String[] args) 
{ 
String filename = args[0]; 
Stringedennm = angsl: 
SymbolGraph sg = new SymbolGraph(filename, delim); 


Graph sgEG( 全 中 


while (StdIn.hasNextLine()) 
{ 
String source = StdIn.readLineQO; 
for (int w : G.adj(sg.index(source))) 
StadOueprimnelne "+ sg.name(w)); 


符号 图 API 的 测试 用 例 
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% java SymbolGraph movies.txt "/" 
Tin Men (1987) 

DeBoy，David 

Blumenfeld, Alan 


Geppi, Cindy 


% java SymbolGraph routes.txt " " Hershey, Barbara 
JFK 3 
ORD Bacon, Kevin 
A Mystic River (2003) 
MCO Friday the 13th (1980) 
LAX Flatliners (1990) 
LAS Few Good Men, A (1992) 549 
PHX a 2 


很 显然 ,这 种 方法 适用 于 我 们 遇 到 过 的 所 有 图 算法 : 用 例 可 以 用 index 〇 将 顶点 名 转化 为 索引 
并 在 图 的 处 理 算法 中 使 用 ， 然 后 将 处 理 结 果 用 name() 转化 为 顶点 名 以 方便 在 实际 应 用 中 使 用 。 
4.1.7.3 ”实现 

Symbo1Graph 的 完整 实现 请 见 下 面 的 框 注 “ 符 号 图 的 数据 类 型 ”。 它 用 到 了 以 下 3 种 数据 结构 ， 


参见 图 4.1.24。 
口 一 个 符号 表 st， 键 的 类 型 为 String (顶点 名 ) ， 值 的 类 型 为 int (索引 ); 
口 一 个 数组 keys[] ， 用 作 反 向 索引 ， 保 存 每 个 顶点 索引 所 对 应 的 顶点 名 ; 
口 一 个 Graph 对 象 6， 它 使 用 索引 来 引用 图 中 顶点 。 


SymbolGraph 会 遍历 两 遍 数 据 来 构造 以 上 数据 结构 ， 这 主要 是 因为 构造 Graph 对 象 需要 顶点 
总 数 V。 在 典型 的 实际 应 用 中 ， 在 定义 图 的 文件 中 指明 广 和 EE( 见 本 节 开 头 Graph 的 构造 函数 ) 可 
能 会 有 些 不 便 ， 而 有 了 Symbo1Graph， 我 们 就 可 以 方便 地 在 routes.txt 或 者 movies.txt 中 添加 或 者 删 
除 条 目 而 不 用 担心 需要 维护 边 或 顶点 的 总 数 。 


符号 表 反 向 索引 无 向 图 
ST<String, Integer> st String[] keys Graph G 

i Be int V| 10 
MCO 1 1 |MCO [2HL 7L>[I 

2 |orD 
ORD 2 3 |DEN Bag[] adj ~[4| 7 0 
DEN| 3 4 |HOU 6 a 

5 |DFW > 7 上 > 0 广 -| 6 上 广 -| 5 上 | 4 3 
HOU| 4 6G; | prix 1 Bs 
DFW 5 7 |ATL 2 No em? 
PHX| 6 8 | LAx -一 一 

9 1LAS 4 六 -| >LHF- 5 上 -| 72 
ATL| 7 
LAX| 8 5 | “六 | ~ ie 

6 
LAS| 9 7 | ~ 3 3 
键 8 TIH> 2 4H0 
9 
信 N96 
Nebls 3 


4.1.24 符号 图 中 用 到 的 数据 结构 2 
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符号 图 的 数据 类 型 
public class SymbolGraph 
上 
private ST<String, Integer> st; // 符号 名 一 索引 
private String[] keys; // 索引 一 符号 名 
private Graph G; // 图 
public SymbolGraph(String stream, String sp) 
{ 
st = new ST<String, Integer>QO; 
In in = new In(stream); // 第 一 遍 
while (in.hasNextLine()) // 构造 索引 
{ 
String[] a = in.readLine().split(sp); // 读 取 字 符 串 
for (int i = 0; i < a.length; i++) // 为 每 个 不 同 的 字符 串 关联 一 个 索引 
if (!st.contains(a[i])) 
st.put(a[i], st.size()); 
} 
keys = new String[st.size()]; // 用 来 获得 顶点 名 的 反 向 索引 是 一 个 数组 
for (String name : st.keysO) 
keys[st.get(name)] = name; 
G = new Graph(st.size(O)); 
in = new In(stream); // 第 二 遍 
while (in.hasNextLine()) // 构造 图 
{ 
String[] a = in.readLine().split(sp); // 将 每 一 行 的 第 一 个 顶点 和 该 行 的 其 他 顶点 相连 
int v = st.get(a[0]); 
for (int i = 1; i < a.length; i++) 
G.addEdge(v, st.get(a[i])); 
} 
} 
public boolean contains(String s) { return st.contains(s); } 
public int index(String s) { return st.get(s); } 
public String name(int v) { return keys[v]; 了 
public Graph GO { return CG; } 
} 
这 个 Graph 实现 允许 用 例 用 字符 串 代替 数字 索引 来 表示 图 中 的 顶点 。 它 维护 了 实例 变量 st ( 符号 表 
来 映射 顶点 名 和 索引 ) 、keys (数组 用 来 映射 索引 和 顶点 名 ) 和 G (使 用 索引 表示 顶点 的 图 ) 。 为 了 
构造 这 些 数据 结构 ， 代 码 会 将 图 的 定义 处 理 两 遍 (定义 的 每 一 行 都 包含 一 个 顶点 及 它 的 相 邻 顶点 列表 ， 
552 ] 分 隔 符 sp 隔 开 ) 。 


4.1.7.4 间隔 的 度数 

到 处 理 的 一 个 经 典 问题 就 是 ， 找 到 一 个 社交 网 络 之 中 两 个 人 间隔 的 度数 。 为 了 于 清楚 概念 ， 

我 们 用 一 个 最 近 很 流行 的 名 为 Kevin Bacon 的 游戏 来 说 明 这 个 问题 。 这 个 游戏 用 到 了 刚才 讨论 的 “ 电 

影 -演员 ”图 。Kevin Bacon 是 一 个 活跃 的 演员 ， 曾 出 演 过 许多 电影 。 我 们 为 图 中 的 每 个 演员 赋 一 

个 Kevin Bacon 数 : Bacon 本 人 为 0， 所 有 和 Kevin Bacon 出 演 过 同一 部 电影 的 人 的 值 为 1， 所 有 
(除了 Kevin Bacon ) 和 Kevin Bacon 数 为 1 的 演员 出 演 过 同一 部 电影 的 其 他 演员 的 值 为 2， 依 次 类 

推 。 例 如 ，Meryl Streep 的 Kevin Bacon 数 为 1， 因为 她 和 Kevin Bacon 一 同 出 演 过 The River Wild。 
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Nicole Kidman 的 值 为 2， 因 为 她 虽然 没有 和 Kevin Bacon 同 台 演 出 过 任何 电影 ， 但 她 和 Tom Cruise 
一 起 演 过 Days of Thunder， 而 Tom Cruise 和 Kevin Bacon 一 起 演 过 4 Few Good Men。 给 定 一 个 演员 
的 名 字 ， 游 戏 最 简单 的 玩法 就 是 找 出 一 系列 的 电影 和 演员 来 回溯 到 Kevin Bacon。 人 例如， 有些 影迷 
可 能 知道 Tom Hanks 和 Lloyd Bridges 一 起 演 过 Joe Versus the Volcano， 而 Bridges 和 Grace Kelly 一 
起 演 过 High Noon，Kelly 又 和 Patrick Allen 一 起 演 过 Dial M for Meder，Allen 和 Donald Sutherland 
一 起 演 过 The Eagle has Landed，Sutherland 和 Kevin Bacon 一 起 出 演 了 Animal House。 但 知道 这 些 
并 不 足以 确定 Tom Hanks 的 Kevin Bacon 数 。( 他 的 值 实际 上 应 该 是 1， 因 为 他 和 Kevin Bacon 
在 4pollo 13 中 合作 过 ) 。 你 可 以 看 到 Kevin Bacon 数 必须 定义 为 最 短 电影 链 的 长 度 ， 因 此 如 果 不 用 
计算 机 ， 人 们 很 难 知道 游戏 中 到 底 谁 赢 了 。 当 然 ， 如 后 面 框 注 “ 间 隔 的 度数 ”中 Symbol1Graph 的 
用 例 Degrees0fSeparation 所 示 ，BreadthFirstPaths 才 是 我 们 所 要 的 程序 ， 它 通过 最 短路 径 来 
找 出 movies.txt 中 任意 演员 的 Kevin Bacon 数 。 这 个 程序 从 命令 行 得 到 一 个 起 点 ， 从 标准 输入 中 接 
受 查 询 并 打印 出 一 条 从 起 点 到 被 查询 顶点 的 最 短路 径 。 因 为 movies.txt 所 构造 的 是 一 幅 二 分 图 ， 每 
条 路 径 上 都 会 交替 出 现 电 影 和 演员 的 顶点 。 打 出 的 结果 可 以 证 明 这 样 的 路 径 是 存在 的 〈 但 并 不 能 证 
明 它 是 最 短 的 你 需要 向 你 的 朋友 证 明 命题 B 才 行 ) 。Degrees0fSeparation 也 能 够 在 非 二 分 
图 中 找到 最 短路 径 。 例 如 ， 在 routes.txt 中 ， 它 能 够 用 最 少 的 边 找 到 一 种 从 一 个 机 场 到 达 另 一 个 机 场 
的 方法 。 


% java DegreesOfSeparation movies.txt "/" "Bacon, Kevin" 
Kidman, Nicole 
Bacon, Kevin 
Woodsman, The (2004) 
Grier,David Alan 
Bewitched(2005) 
Kidman, Nicole 
Grant, Cary 
Bacon, Kevin 
Planes,Trains Automobiles(1987) 
Martin,Steve(I) 
Dead Men Don't Wear Plaid(1982) 
Grant, Cary 


你 可 能 会 发 现 用 Degrees0fSeparation 来 回答 一 些 关 于 电影 行业 的 问题 很 有 趣 。 例 如 ,你 不 [553 

但 可 以 找到 演员 和 演员 之 间 的 间隔 ， 还 可 以 找到 电影 和 电影 之 间 的 间隔 。 更 重要 的 是 ， 间 隔 的 概 

念 在 其 他 许多 领域 也 被 广泛 研究 。 例 如 ， 数 学 家 也 会 玩 这 个 游戏 ， 但 他 们 的 图 是 用 一 些 论文 的 作 

者 到 P.Erd6s ( 20 世纪 的 一 位 多 产 的 数学 家 ) 的 距离 来 定义 的 。 类 似 地 ， 似 乎 新 泽 西 州 的 每 个 人 的 

Bruce Springsteen 数 都 为 2， 因 为 每 个 人 都 声称 自己 认识 某 个 认识 Bruce 的 人 。 要 玩 Erd6s 的 游戏 ， 

你 需要 一 个 包含 所 有 数学 论文 的 数据 库 ; 要 玩 Sprintsteen 的 游戏 还 要 困难 一 些 。 从 更 严肃 的 角度 来 

说 ， 间 隔 度数 的 理论 在 计算 机 网 络 的 设计 以 及 理解 各 个 科学 领域 中 的 自然 网 络 中 都 能 起 到 重要 的 

作用 。 


554 


358 PF 


% java DegreesOfSeparation movies.txt "/" "Animal House (1978)" 


Titanic (1997) 
Animal House (1978) 
Allen, Karen (I) 
Raiders of the Lost Ark (1981) 
Wav lor eRocky er 
Titande C1997) 

To Catch a Thief (1955) 
Animal House (1978) 
Vernon, John (I) 

Topaz (1969) 
Hitchcock, Alfred (1) 
MomGatehn a hernGLoss 


间隔 的 度数 


public class DegreesOfSeparation 
public static void main(String[] args) 


{ 


SymbolGraph sg = new SymbolGraph(args[0], args[1]); 


Graph G = sg.GO; 


String source = args[2]; 
if (!sg.contains(source)) 


{ StdOut.println(source + "not in database."); return; } 


int s = sg.index(source); 


BreadthFirstPaths bfs = new BreadthFirstPaths(G, s); 


while (!StdIn.isEmpty()) 
{ 
String sink = StdIn.readLine() ; 
if (sg.contains(sink)) 
{ 
int t = sg.index(sink); 
if (bfs.hasPathTo(t)) 
for (int v : bfs.pathTo(t)) 


335 


} 


} 


StdOut .println(” ”+ sg.name(v)); 
else Stdout.println("Not connected"); 
} 
else StdOut.println("Not in database."); 


% java 
DegreesOfSeparation 
POUEesT EX eK 
LAS 

JFK 

ORD 

PHX 

LAS 
DFW 

JFK 

ORD 

DFW 


这 有 段 代码 使 用 了 Symbo1Graph 和 BreadthFirstPaths 来 查找 图 
以 用 它 来 玩 Kevin Bacon 游戏 。 


P 的 最 短路 径 。 对 于 movies.txt， 可 


4.1.8 


总 十 


1 一 口 


在 本 节 中 ， 我 们 介绍 了 儿 个 基本 的 概念 ， 本 章 的 其 余部 分 会 继续 扩展 并 研究 : 


口 


图 的 术语 ; 

口 一 种 图 的 表示 方法 ， 能 够 处 理 大 型 而 稀 琉 的 图 ; 

口 和 图 处 理 相 关 的 类 的 设计 模式 ， 其 实现 算法 通过 在 相关 的 类 的 构造 函数 中 对 图 进行 预 处 理 
构造 所 需 的 数据 结构 来 高 效 支 持 用 例 对 图 的 查询 ; 
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口 深度 优先 搜索 和 广度 优先 搜索 ; 

口 支持 使 用 符号 作为 图 的 项 点 名 的 类 。 

表 4.1.9 总 结 了 我 们 已 经 学 习 过 的 所 有 图 算法 的 实现 。 这 些 算法 非常 适合 作为 图 处 理 的 入 门 学 
习 。 随 后 学 习 更 加 复杂 类 型 的 图 以 及 处 理 更 加 困难 的 问题 时 ， 我 们 还 会 用 到 这 些 代码 的 变种 。 在 考 
虑 了 边 的 方向 以 及 权重 之 后 ， 同 样 的 问题 会 变 得 困难 得 多 ， 但 同样 的 算法 仍然 奏效 并 将 成 为 解决 更 
加 复杂 问题 的 起 点 。 


表 4.1.9 本 节 中 得 到 解决 的 无 向 图 处 理 问题 


问 题 解决 方法 参阅 
单 点 连通 性 DepthFirstSearch 4.1.3.2 节 
单 点 路 径 DepthFirstPaths 算法 4.1 
单 点 最 短路 径 BreadthFirstPaths 算法 4.2 
连通 性 CC 算法 4.3 
检测 环 Cycle 表 4.1.7 
Wi 


问 为 什么 不 把 所 有 的 算法 都 实现 在 Graph.java 中 ? 

答 可 以 这 么 做 ， 可 以 向 基本 的 Graph 抽象 数据 类 型 的 定义 中 添加 查询 方法 (以 及 它们 需要 的 私有 变量 和 
方法 等 ) 。 尽 管 这 种 方式 可 以 用 到 一 些 我 们 所 使 用 的 数据 结构 的 优点 ， 它 还 是 有 一 些 严重 的 缺陷 ， 因 
为 图 处 理 的 成 本 比 1.3 节 中 过 到 那些 基本 数据 结构 要 高 得 多 。 这 些 缺 点 主要 有 : 

口 在 图 处 理 中 ， 需 要 实现 的 操作 还 有 很 多 ， 我 们 无 法 在 一 份 API 中 全 部 精确 地 定义 它们 ; 

口 简单 任务 的 API 和 复杂 任务 所 使 用 的 API 是 相同 的 ; 

口 一 个 方法 将 可 以 访问 另外 一 个 方法 专用 的 变量 ， 这 有 悖 我 们 需要 遵守 的 封装 原则 。 
这 种 情况 并 不 罕见 : 这 种 API 被 称 为 宽 接 口 〈 请 见 1.2.5.2 节 ) 。 本 章 包 含 如 此 众多 的 图 算法 ， 
将 导致 这 种 API 变 得 非常 宽 。 

问 SymbolGraph 真 需 要 将 图 的 定义 遍历 两 帝 吗 ? 

答 不 ， 你 也 可 以 将 用 时 变 为 原来 的 leV 售 并 直接 用 ST 而 非 Bag 来 实现 adj@O。 我 们 的 另 一 本 书 4n 


Jntroduction to Programming in Java: An Interdisciplinary Approach 中 含有 使 用 这 种 方法 的 一 个 实现 。 557 


图 练习 


4.1.1 一 幅 含 有 了 个 顶点 且 不 含有 平行 边 的 图 中 至 多 含有 多 少 条 边 ? 一 幅 仿 有 了 个 顶点 的 连通 图 中 至 少 
含有 多 少 条 边 ? 

4.1.2 按照 正文 中 示意 图 的 样式 (请 见 图 4.1.9 ) 画 出 Graph 的 构造 函数 在 处 理 图 4.1.25 的 tinyGex2.txt 
时 构造 的 邻接 表 。 

4.1.3 为 Graph 添加 一 个 复制 构造 函数 ， 它 接受 一 幅 图 6 然后 创建 并 初始 化 这 幅 图 的 一 个 副本 。G 的 用 
例 对 它 作出 的 任何 改动 都 不 应 该 影响 到 它 的 副本 。 

4.1.4 为 Graph 添加 一 个 方法 hasEdge()， 它 接受 两 个 整 型 参数 v 和 w。 如 果 图 含有 边 v-w， 方 法 返回 


true， 否 则 返回 false。 
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4.1.16 


图 


修改 Graph， 不 允许 存在 平行 边 和 自 环 。 

有 一 张 含 有 四 个 顶点 的 图 ， 其 中 的 边 为 0-1、1-2、2-3 和 3-0。 给 出 一 种 邻接 表 数 组 ， 无 论 以 任 
何 顺 序 调用 addEdge() 来 添加 这 些 边 都 无 法 创建 它 。 

为 Graph 编写 一 个 测试 用 例 ， 用 命令 行 参数 指定 名 字 的 输入 流 中 接受 一 幅 图 ， 然 后 用 


toString() 方法 将 其 打印 出 来 。 
按照 正文 中 的 要 求 ， 用 union-find 算法 实现 4.1.2.3 中 搜索 的 API。 


使 用 dfs (0) 处 理由 


Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 并 按照 4.1.3.5 


节 的 图 4.1.14 的 样式 给 出 详细 的 轨迹 。 同 时 ， 画 出 edgeTo[] 所 表示 的 树 。 


标记 


过 的 顶点 。 


E21 


图 


如 果 


面 出 edgeTo[] 所 表示 的 树 。 


证 明 在 任意 一 幅 连 通 图 中 都 存在 一 个 项 点 ， 删 去 它 ( 以 及 和 它 相 连 的 所 有 边 ) 不 会 影响 到 图 的 
连通 性 ， 编 写 一 个 深度 优先 搜索 


的 方法 找 出 这 样 一 个 顶点 。 提 示 : 留心 那些 相 邻 顶点 全 部 都 被 


使 用 算法 4.2 中 的 bfs(G,0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 


v 和 w 都 不 是 根 结 点 ， 能 够 由 广度 优先 搜索 得 到 的 树 中 计算 它们 之 间 的 距离 吗 ? 
为 BreadthFirstPaths 的 API 添加 并 实现 一 个 方法 distTo@O ， 返 回 从 起 点 到 给 定 的 顶点 的 最 短 
路 径 的 长 度 ， 它 所 需 的 时 间 应 该 为 常数 。 


如 果 用 栈 代替 队列 来 实现 广度 优先 搜索 ， 我 们 还 能 得 到 最 短路 径 吗 ? 
修改 Graph 的 输入 流 构 造 函 数 ， 允 许 从 标准 输入 读 入 图 的 邻接 表 (方法 类 似 于 Symbo- 
1Graph ) ， 如 图 4.1.26 的 tinyGadj.txt 所 示 。 在 顶点 和 边 的 总 数 之 后 ， 每 一 行 由 一 个 顶点 和 它 的 
所 有 相 邻 顶点 组 成 。 
(3) (0H 内容 和 “ 边 列表 ” 相 
tinyGex2 .txt (XX4) 同 ， 只 是 顺序 不 同 
Vs (5) QD / 
EE 
16 (0) (6) 
? S NA_ 人 % java Graph tinyGadj .txt 
汪汪 @ 13 FE i 13 edges 
0 6 01256 1: 0 列表 顺序 
3 6 / 345 冯 2 前 和 输入 相反 
10 3 © ® 456 3: 5 4 
a 7 8 A OB 
7 9 10 11 12 Be 
11 8 (7) (8) 11. 12 6:40 
: ?Ao 1 
? QD (1) BE 
9: 12 11 10 
5 10 10: 9 每 条 边 在 第 二 
5.0 (9) Tl lp 次 出 现 的 时 候 
。 Tp 会 加 粗 显示 
到 ”4.1.24 图 4.1.26 
顶点 v 的 离心 率 是 它 和 离 它 最 远 的 顶点 的 最 短 距 离 。 图 的 直径 即 所 有 顶点 的 最 大 离心 率 ， 半 径 
为 所 有 顶点 的 最 小 离心 率 ， 中 点 为 离心 率 和 半径 相等 的 顶点 。 实 现 以 下 API， 如 表 4.1.10 所 示 。 
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表 4.1.10 
public class GraphProperties 
GraphProperties(Graph ©) 构造 函数 (如果 G 不 是 连通 的 ， 抛 出 异常 ) 
int eccentricity(int v) v 的 离心 率 
int diameter() G 的 直径 
int radius() G 的 半径 
int center() G 的 某 个 中 点 


4.1.17 图 的 周 长 为 图 中 最 短 环 的 长 度 。 如 果 是 无 环 图 ， 则 它 的 周 长 为 无 穷 大 。 为 GraphProperties 添 


加 一 个 方法 girthGO) ， 返 回 图 的 周 长 。 提 示 : 在 每 个 顶点 都 进行 广度 优先 搜索 。 含 有 s 的 最 小 [558 
环 为 s 到 某 个 顶点 v 的 最 短路 径 加 上 从 v 返回 到 s 的 边 。 Ee 


互 


4.1.18 使 用 CC 找 出 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 的 所 有 连 

通 分 量 并 按照 图 4.1.21 的 样式 给 出 详细 的 轨迹 

4.1.19 使 用 Cycle 在 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 找到 的 一 
个 环 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，Cycle 构造 函数 的 运行 时 间 的 增 
长 数量 级 是 多 少 ? 

4.1.20 使 用 TwoCcolor 给 出 由 Graph 的 构造 函数 从 tinyGex2.txt( 请 见 练习 4.1.2 ) 得 到 的 图 的 一 个 着 色 
方案 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，TwoColor 构造 函数 的 运行 时 间 
的 增长 数量 级 是 多 少 ? 

4.1.21 用 SymbolGraph 和 movie.txt 找到 今年 获得 奥斯卡 奖 提名 的 演员 的 Kevin Bacon 数 。 

4.1.22 ”编写 一 段 程序 BaconHistogram， 打 印 一 幅 Kevin Bacon 数 的 柱状 图 ， 显 示 movies.txt 中 Kevin 
Bacon 数 为 0、1、2、3……: 的 演员 分 别 有 多 少 。 将 值 为 无 穷 大 的 人 (不 与 Kevin Bacon 连通 ) 归 为 一 类 。 

4.1.23 计算 由 movies.txt 得 到 的 图 的 连通 分 量 的 数量 和 包含 的 顶点 数 小 于 10 的 连通 分 量 的 数量 。 计 算 
最 大 的 连通 分 量 的 离心 率 、 直 径 、 半 径 和 中 点 。Kevin Bacon 在 最 大 的 连通 分 量 之 中 吗 ? 

4.1.24 修改 DegreesOfSeparation， 从 命 


o 


% java DegreesOfSeparationDFS movies.txt 


令 行 接受 一 个 整 型 参数 y， 忽略 上 映 Source: Bacon, Kevin 
年 数 超过 y 的 电影 。 Query: Kidman, Nicole 
、 三 Bacon，Kevin 
4.1.25 编写 一 个 类 似 于 DegreesOfSe- Mystic River (2003) 
paration 的 SymbolGraph 用 例 , 使 0’ Hara, Jenny 
ee ee Na Matchstick Men (2003) 
用 深度 优先 搜索 代替 广度 优先 搜索 Grant, Beth 
来 查找 两 个 演员 之 间 的 路 径 ， 输 出 RS 
Re et Law, Jude 
类 似 右 侧 框 注 所 示 的 数据 。 Sky Captain... (2004) 
4.1.26 ”使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 Je An 
加 ey Playing by Heart (1998) 
Graph 表示 一 幅 含 有 VV 个 顶点 和 E Anderson, Gillian (I) 
条 边 的 图 所 需 的 内 存 。 Cock and Bull Story, A (2005) 
a 本 Henderson, Shirley (I) 
4.1.27 ”如 果 重 命名 一 幅 图 中 的 顶点 就 能 够 24 Hour Party People (2002) 
使 之 变 得 和 另 昼 图 完全 相同 ， 这 Eccleston, Christopher 
a a Gone in Sixty Seconds (2000) 
两 幅 图 就 是 同 构 的 。 画 出 含有 2、3、 Balahoutis，Alexandra 
4、5 个 顶点 的 所 有 非 同 构 的 图 。 Days of Thunder (1990) 560 


Kidman, Nicole 


4.1.28 修改 Cycle, 允许 图 含有 自 环 和 平行 边 。 501 


4.1.30 
4.1.31 
4.1.32 
4.1.33 


4.1.34 


4.1.35 


欧 拉 环 和 汉密尔顿 环 。 考 虑 以 下 4 组 边 定义 的 图 : 


0-1 0-2 0-3 1-3 1-4 2-5 2-9 3-6 4-7 4-8 5-8 5-9 6-7 6-9 7-8 
0-1 0-2 0-3 1-3 0-3 2-5 5-6 3-6 4-7 4-8 5-8 5-9 6-7 6-9 8-8 
0-1 1-2 1-3 0-3 0-4 2-5 2-9 3-6 4-7 4-8 5-8 5-9 6-7 6-9 7-8 
4-1 7-9 6-2 7-3 5-0 0-2 0-8 1-6 3-9 6-3 2-8 1-5 9-8 4-5 4-7 
哪儿 幅 图 含有 欧 拉 环 ( 恰好 包含 了 所 有 的 边 且 没有 重复 的 环 ) ?哪儿 幅 图 含有 汉 密 尔 
顿 环 ( 恰好 包含 了 所 有 的 顶点 且 没 有 重复 的 环 ) ? 
图 的 枚 举 。 含 有 VV 个 顶点 各 条 边 (不 含 平行 边 ) 的 不 同 的 无 向 图 共有 多 少 种 ? 


检测 平行 边 。 设 计 一 个 线性 时 间 的 算法 来 统计 图 中 的 平行 边 的 总 数 。 


奇 环 。 证 明 一 幅 图 能 够 


] 两 种 颜色 着 色 ( 二 分 图 ) 当 且 仅 当 它 不 含有 长 度 为 奇数 的 环 。 


符号 图 。 实 现 一 个 Symbol1Graph ( 不 一 定 必须 使 用 Graph ) ， 只 需要 遍历 一 遍 图 的 定义 数据 。 


由 于 需要 查找 符号 表 ， 实 现 中 图 的 各 种 操作 时 耗 可 能 会 变 为 原来 的 logy 倍 。 


双向 连通 性 。 如 果 任 意 一 对 顶点 都 能 由 两 条 不 同 ( 没有 重 从 的 边 或 顶点 ) 的 路 径 连通 则 图 就 是 
双向 连通 的 。 在 一 幅 连 通 图 中 ， 如 果 一 个 顶点 ( 以 及 和 它 相 连 的 边 ) 被 删 掉 后 图 不 再 连通 ， 该 
顶点 就 被 称 为 关节 点 。 证 明 没 有 关节 点 的 图 是 双向 连通 的 。 提 示 : 给 定 任意 一 对 顶点 s 和 tt 和 


一 条 连接 两 点 的 路 径 ， 由 


于 路 径 上 没有 任何 顶点 为 关节 点 ， 构 造 男 一 条 不 同 的 路 径 连 接 s 和 t。 


边 的 连通 性 。 在 一 幅 连 通 图 中 ， 如 果 一 条 边 被 删除 后 图 会 被 分 为 两 个 独立 的 连通 分 量 ， 这 条 边 


就 被 称 为 桥 。 没 有 桥 的 图 称 为 边 连 通 图 。 开 发 一 种 基于 深度 优先 搜索 算法 的 数据 类 型 判断 一 


个 图 是 否 是 边 连 通 图 


O 


欧 几 里 得 图 。 为 平面 上 的 图 设计 并 实现 一 份 叫做 Euc1ideanGraph 的 API， 其 中 图 所 有 顶点 均 有 


坐标 。 实 现 一 个 show0) 方法 ， 用 StdDraw 将 图 绘 出 。 
图 像 处 理 。 在 一 幅 图 像 中 将 所 有 相 邻 的 、 颜 色相 同 的 点 相连 就 可 以 得 到 一 幅 图 ， 为 这 种 隐 式 定 


义 的 图 实现 填充 (food fill ) 操作 。 


验 题 


4.1.42 


稀 玲 图 ， 以 便 用 它 对 


Graph， 用 随机 在 平 


随机 图 。 编 写 一 个 程序 ErdosRenyiGraph， 从 命令 行 接受 整数 广 和 EE， 随 机 生成 对 0 到 -1 
之 间 的 整数 来 构造 一 幅 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 图 。 编 写 一 个 程序 RandomSimpleGraph， 从 命令 行 接受 整数 天 和 五 ， 用 均等 的 几率 生 
成 含有 了 个 项 点 和 条 边 的 所 有 可 能 的 简单 图 。 

随机 和 守 疏 图 。 编 写 一 个 程序 RandomSparseGraph， 根 据 精心 选择 的 一 组 天 和 五 的 值 生 成 随机 的 
由 Erd5s-Renyi 模型 得 到 的 图 进行 有 意义 的 经 验 性 测试 。 

随机 欧 几 里 得 图 。 编 写 一 个 EuclideanGraph 的 用 例 (请 见 练习 4.1.36 ) RandomEuc1idean- 
看 上 生成 了 个 点 的 方式 生成 随机 图 ， 然 后 将 每 个 点 和 在 以 该 点 为 中 心 半径 为 


q 的 圆 内 的 其 他 点 相连 。 注 意 : 如 果 4 大 于 阔 值 VigF/z VV ， 那 么 得 到 的 图 几乎 必然 是 连通 的 ， 


否则 得 到 的 图 几乎 必然 是 不 连通 的 。 


随机 网 格 图 。 编 写 一 个 Euc1ideanGraph 的 用 例 RandomGridGraph, 将 VV 乘 VV 的 网 格 中 的 所 


有 项 点 和 它们 的 相 邻 顶点 相连 〈 参考 练习 1.5.18 ) 。 修 改 代码 为 图 额外 添加 R 条 随机 的 边 。 对 于 
较 大 的 RR， 缩 小 网 格 使 得 总 边 数 保持 在 了 个 左右 。 添 加 一 个 选项 ， 使 得 出 现 一 条 从 顶点 s 到 顶 


4.1.43 


4.1.44 


4.1.45 


4.1.46 


4.1.47 


4.1.48 


4.1.49 
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点 v 的 边 的 概率 与 s 到 t 的 欧 几 里 得 距离 成 反比 。 

真实 世界 中 的 图 。 从 网 上 找 出 一 幅 巨 型 加 权 图 一 一 可 以 是 一 张 标记 了 距离 的 地 图 ， 或 者 是 标明 
了 费用 的 电话 连接 ,或 是 航班 价目 表 。 编 写 一 段 程序 RandomRealGraph， 从 这 幅 图 中 随机 人 迭 取 
个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 边 来 构造 一 幅 图 。 

随机 区 间 图 。 考 虑 数 轴 上 的 和 个 区 间 的 集合 。 这 样 的 一 个 集合 定义 了 一 幅 区 间 图 ， 图 中 的 每 个 
顶点 都 对 应 一 个 区 间 ， 而 边 则 对 应 两 个 区 间 的 交集 ( 大 小 不 限 ) 。 编 写 一 段 程序 ， 随 机 生成 大 
小 均 为 4 的 V 个 区 间 ， 然 后 构造 相应 的 区 间 图 。 提 示 : 使 用 二 分 查找 树 。 

随机 运输 图 。 定 义 运 输 系统 的 一 种 方法 是 定义 一 个 顶点 链 的 集合 ， 每 条 顶点 链 都 表示 一 条 连接 
了 多 个 顶点 的 路 径 。 例 如 ， 链 0-9-3-2 定义 了 边 0-9、9-3 和 3-2。 编写 一 个 EuclideanGraph 
的 用 例 RandomTransportation， 从 一 个 输入 文件 中 构造 一 幅 图 ， 文 件 的 每 行 均 为 一 条 链 ， 使 
用 符号 名 。 编 辑 一 份 合适 的 输入 使 得 程序 能 够 从 中 构造 一 幅 和 巴黎 地 铁 系统 相对 应 的 图 。 
测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 程 
序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 实 
验 。 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结 果 以 及 由 此 得 出 的 任何 结论 。 
深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实 验 并 根据 经 验 判 断 DepthFirstPaths 
在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 

广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运行 实验 并 根据 经 验 判 断 Breadth- 
FirstPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 
连通 分 量 。 运 行 实验 随机 生成 大 量 的 图 并 夯 出 柱状 图 ， 根 据 经 验 判 断 各 种 类 型 的 随机 图 中 连通 
分 量 的 数量 的 分 布 情况 。 

双色 问题 。 大 多 数 的 图 都 无 法 用 两 种 颜色 着 色 ， 深 度 优先 搜索 能 够 很 快 发 现 这 一 点 。 对 于 各 种 
图 模型 ， 使 用 经 验 性 的 测试 来 研究 TwoColor 检查 的 边 的 数量 。 
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4.2 ”有 向 图 


在 有 向 图 中 ， 边 是 单 向 的 : 每 条 边 所 连接 的 两 个 顶点 都 是 一 个 有 序 对 ， 它 们 的 邻接 性 是 单 向 的 
( 表 4.2.1) 。 许 多 应 用 ( 比如 表示 网 络 、 任 务 调度 条 件 或 是 电话 的 图 ) 都 是 天 然 的 有 向 图 。 为 实现 
添加 这 种 单 向 性 的 限制 很 容易 也 很 自然 ， 看 起 来 没什么 坏处 。 但 实际 上 这 种 组 合 性 的 结构 对 算法 有 
深刻 的 影响 ,使 得 有 向 图 和 无 向 图 的 处 理 大 有 不 同 。 本 节 中 ， 我 们 会 学 习 搜 索 和 处 理 有 向 图 的 一 些 
经 典 算法 。 


表 4.2.1 实际 生活 中 的 典型 有 向 图 


应 用 项 点 边 
食物 链 物种 捕食 关系 
互联 网 连接 网 页 超 链接 
程序 模块 外 部 引用 
手机 电话 呼叫 
学 术 研 究 论文 引用 
网 络 计算 机 网 络 连接 

4.2.1 术语 


虽然 我 们 为 有 向 图 的 定义 和 无 向 图 几乎 相同 (将 使 用 的 部 分 算法 和 代码 也 是 ) ， 但 仍然 需要 在 
这 里 重复 一 遍 。 为 了 说 明 边 的 方向 性 而 产生 的 细小 文字 差异 所 代表 的 结构 特性 正 是 本 节 的 重点 。 


定义 。 一 幅 有 方向 性 的 图 (或 有 向 图 ) 是 由 一 组 顶点 和 一 组 有 方向 的 边 组 成 的 ， 每 条 有 方向 的 
边 都 连接 着 有 序 的 一 对 顶点 。 


我 们 称 一 条 有 向 边 由 第 一 个 顶点 指出 并 指向 第 二 个 顶点 。 在 一 幅 有 向 图 中 ， 一 个 顶点 的 出 度 为 
由 该 顶点 指出 的 边 的 总 数 ; 一 个 顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 ( 请 见 图 4.2.1 ) 。 当 上 下 文 的 
意义 明确 时 ， 我 们 在 提 到 有 向 图 中 的 边 时 会 省 略 有 向 二 字 。 一 条 有 向 边 的 第 一 个 顶点 称 为 它 的 头 ， 
第 二 个 顶点 则 被 称 为 它 的 妊 。 将 有 向 边 画 为 由 头 指向 尾 的 一 个 箭头 。 用 v 一 w 来 表示 有 向 图 中 一 条 
由 v 指向 w 的 边 。 和 无 向 图 一 样 ， 本 节 的 代码 也 能 处 理 自 环 和 平行 边 ， 但 它们 不 会 出 现在 例子 中 ， 
在 正文 中 一 般 也 不 会 提 到 它们 。 除 了 特殊 的 图 ， 一 幅 有 向 图 中 的 两 个 顶点 的 关系 可 能 有 4 种 : 没有 
边 相 连 ; 存在 从 v 到 w 的 边 v 一 w; 存在 从 w 到 v 的 边 w 一 v; 既 存 在 v 一 w 也 存在 w 一 v， 即 双向 
的 连接 。 


定义 。 在 一 幅 有 向 图 中 ， 有 向 路 径 由 一 系列 顶点 组 成 ， 对 于 其 中 的 每 个 顶点 都 存在 一 条 有 向 边 
从 它 指 向 序列 中 的 下 一 个 顶点 。 有 向 环 为 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 有 向 路 径 。 
简单 有 向 环 是 一 条 (除了 起 点 和 终点 必须 相同 之 外 ) 不 含有 重复 的 顶点 和 边 的 环 。 路 径 或 者 环 
的 长 度 即 为 其 中 所 包含 的 边 数 。 


和 无 向 图 一 样 ， 我 们 假设 有 向 路 径 都 是 简单 的 ， 除 非 我 们 明确 指出 了 某 个 重复 了 的 顶点 〈 像 有 
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由 顶点 v 达到 。 我 们 约定 ， 每 个 项 点 都 能 够 达到 它 自己 。 除 了 这 种 情况 之 外 ， 在 有 向 图 中 由 v 能 够 
到 达 w 并 不 意味 着 由 w 也 能 到 达 v。 这 个 不 同 虽 然 很 明显 但 非常 重要 ， 后 面 将 会 看 到 这 一 点 。 

要 理解 本 节 中 的 算法 ， 你 就 必须 要 理解 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 的 区 别 。 理 解 这 
种 区 别 可 能 比 你 想象 得 更 困难 。 例 如 ， 尽 管 你 可 能 一 眼 就 能 看 出 一 小 幅 无 向 图 中 的 两 个 顶点 之 间 是 
否 连通 , 但 是 在 一 小 幅 有 向 图 中 快速 找 出 一 条 有 向 路 径 就 不 那么 容易 了 ， 比 如 图 4.2.2 所 示 的 例子 。 
处 理 有 向 图 就 如 同 在 一 座 只 有 单行 道 的 城市 中 穿梭 ， 而 且 这 些 单行 道 的 方向 是 杂乱 无 草 的 。 在 这 种 
情况 下 ， 想 从 一 处 到 达 男 一 处 会 是 一 件 很 麻烦 的 事 。 但 与 直觉 相反 ,我们 用 来 表示 有 向 图 的 标准 数 
据 结构 甚至 比 无 向 图 的 表示 更 加 简单 ! 


0—>9—>9< 09< 90<_90<—9—>9 
人 人 Ky 
【Ss NE * ~ > 全 < Le % -6 
, Ls 人 A 人 A 人 1 
学 过 一 一 竺 和 一 千 
长 度 为 3 全 人 | 人 1 
的 有 向 环 人、 6- o-oo re to 
度 为 4 的 Ee 
有 向 路 径 1 TI 
入 度 为 3 出 > @ > 
oe ee 
EA | 
™ > 二 和 一生 一 人 一 全 下 一 外 
图 4.2.1 有 向 图 详解 图 4.2.2 ”在 这 幅 有 向 图 中 ， 从 v 能 够 到 达 w 吗 567 


4.2.2 ”有 向 图 的 数据 类 型 


以 下 这 份 API 以 及 下 一 页 中 的 Digraph 类 和 Graph 类 本 质 上 是 相同 的 (请 见 4.1.2.2 节 框 注 
“Graph 数据 类 型 ” ) 。 


mT 


表 4.2.2 有 向 图 的 API 
public class Digraph 


DigraphCint V) 创建 一 幅 含 有 了 个 顶点 但 没有 边 的 有 向 图 
Digraph(In in) 从 输入 流 in 中 读 取 一 幅 有 向 图 
int VO 顶点 总 数 
int EQ 边 的 总 数 
void addEdge(int v, int w) 向 有 向 图 中 添加 一 条 边 v 一 w 
Iterable<Integer> adj(int v) 由 v 指 出 的 边 所 连接 的 所 有 顶点 
Digraph reverse() 该 图 的 反 向 图 
String toString(Q) 对 象 的 字符 串 表示 


4.2.2.1 ”有 向 图 的 表示 

我 们 使 用 邻接 表 来 表示 有 向 图 ， 其 中 边 v 一 w 表示 为 顶点 v 所 对 应 的 邻接 链表 中 包含 一 个 w 顶 
点 。 这 种 表示 方法 和 无 向 图 几乎 相同 而 且 更 明晰 ， 因 为 每 条 边 都 只 会 出 现 一 次 ， 如 后 面 框 注 “有 向 
图 ( diagraph ) 的 数据 类 型 ”所 示 。 
4.2.2.2 输入 格式 

由 输入 流 读 取 有 向 图 的 构造 函数 的 代码 与 Graph 类 中 相应 构造 函数 的 代码 完全 相同 因为 两 者 
的 输入 格式 是 一 样 的 ， 但 所 有 的 边 都 是 有 向 边 。 在 边 列 表 的 格式 中 ， 一 对 顶点 v 和 w 表示 边 Vv 一 Ww。 
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4.2.2.3 ”有 向 图 取 反 


Digraph 的 API 中 还 添加 了 一 个 方法 reverseG 。 它 返回 该 有 向 图 的 一 个 副本 ， 但 将 其 中 所 有 


边 的 方向 反 转 。 在 处 理 有 向 图 时 这 个 方法 有 时 很 有 


和， 因为 这 样 用 例 就 可 以 找 出 “指向 ”每 个 顶点 


的 所 有 边 ， 而 adj 0) 给 出 的 是 由 每 个 顶点 指出 的 边 所 连接 的 所 有 顶点 。 


4.2.2.4 ”顶点 的 符号 


在 有 向 图 中 ， 人 允许 用 例 使 用 符号 作为 顶点 名 也 更 加 简单 。 要 实现 与 SymbolGraph 类 似 的 
Symbol1Digraph 类 ， 只 需要 将 其 中 的 Graph 字样 都 赫 换 成 Digraph 即 可 。 
花 一 点 时 间 对 比 一 下 后 面 框 注 中 的 代码 和 示意 图 与 4.1.2.1 节 及 4.1.2.2 节 的 框 注 “Graph 数据 类 


型 ”中 无 向 图 的 代码 是 非常 有 价值 的 。 在 用 邻接 表 表 示 无 向 图 时 ， 如 果 v 在 w 的 链表 中 , 那么 w 必 


然 也 在 v 的 链表 中 。 但 在 有 向 图 中 这 种 对 称 性 是 不 存在 的 。 这 个 区 别 在 有 向 图 的 处 理 中 影响 深远 。 


Digraph 数据 类 型 
public class Digraph 
tinyDG. txt 
private final int V; V~>13 
E 
private int E; 22 
private Bag<Integer>[] adj; 3 
3 2 
public Digraph(int V) 6 0 0) 
{ ;3 IDX > 
this.V = Vi 11 12 
this.E = 0; 12 9 G3) 四 (9) 
adj = (Bag<Integer>[]) new Bag[V]; 3 @) GY 
for (int v = 0; Vv < V; Vv++) 8 9 
adj[v] = new Bag<Integer>() ; 10'.12 
11 4 
4 3 
public int VO) { return V; +} 2 2 
public int EC(O) { return E; } 8 2 
public void addEdgeCint v, int w) 6 > 
{ 6 9 N55 
adj[v] .add(w); 7 6 
E++; 
} adj[] ~ | 3 
0 
public Iterable<Integer> adj(int v) 1 ws 2 
{ return adj[v]; } 2 
[a 了 
ublic Digraph reverse 
grap © 4 a 
: 5 Oo 
Digraph R = new Digraph(V); 二 
- 。 6 9 上 >| 4 上 >| 0 
for Cint v = 0; vV < Vi v++) 
for (int w : adj(v)) A A i 
R.addEdge(w, Vv); 8 se [一 | 
return R; 9 N75 9 
} 10 
} 11 六 11 广 -10 
12 < 
Digraph 数据 类 型 与 Graph 数据 类 型 ( 请 见 4.1.2.2 框 注 2 
“Graph 数据 类 型 ” ) 基本 相同 ， 区 别 是 addEdge() 只 调用 了 一 ~ 
次 add()， 而 且 它 还 有 一 个 reverse() 方法 来 返回 图 的 反 向 图 。 ~ 
因为 两 者 的 代码 非常 相似 ， 所 以 省 略 了 toString0Q 方法 (请 见 
有 向 图 的 输入 格式 和 邻接 表 的 表示 


表 4.1.2 ) 和 从 输入 流 中 读 取 图 的 构造 函数 。 
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4.2.3 ”有 向 图 中 的 可 达 性 

在 无 向 图 中 介绍 的 第 一 个 算法 就 是 4.1.3.2 节 中 的 DepthFirstSearch， 它 解决 了 单 点 连通 性 的 
问题 ， 使 得 用 例 可 以 判定 其 他 顶点 和 给 定 的 起 点 是 否 连通 。 使 用 完全 相同 的 代码 ， 将 其 中 的 Graph 
替换 为 Digraph， 也 可 以 解决 一 个 有 向 图 中 的 类 似 问题 。 

单 点 可 达 性 。 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 是 否 存 在 一 条 从 s 到 达 给 定 顶点 v 的 有 向 
路 径 ? ”等 类 似 问 题 。 

算法 4.4 中 的 DirectedDFS 类 将 DepthFirstSearch 稍 加 润色 并 实现 了 以 下 API。 


表 4.2.3 有 向 图 的 可 达 性 API 


public class DirectedDFS 


DirectedDFS(Digraph G, int s) 在 G 中 找到 从 s 可 达 的 所 有 顶点 
DirectedDFS(Digraph G， 在 G 中 找到 从 sources 中 的 所 有 顶点 可 达 的 所 有 
Iterable<Integer> sources) 页 点 
boolean marked(int v) v 是 可 达 的 吗 


在 添加 了 一 个 接受 多 个 顶点 的 构造 函数 之 后 , 这 份 API 使 得 用 例 能 够 解决 一 个 更 加 一 般 的 问题 。 

多 点 可 达 性 。 给 定 一 幅 有 向 图 和 项 点 的 集合 ， 回 答 “ 是 否 存 在 一 条 从 集合 中 的 任意 顶点 到 达 给 
定 顶 点 Vv 的 有 向 路 径 ? ”等 类 似 问 题 。 

我 们 在 5.4 节 中 解决 经 典 的 字符 串 处 理 问题 时 会 再 次 遇 到 这 个 问题 。 

DirectedDFS 使 用 了 解决 图 处 理 的 标准 范例 和 标准 的 深度 优先 搜索 来 解决 这 些 问 题 。 它 对 每 个 
起 点 调用 递归 方法 dfs()， 以 标记 遇 到 的 任意 项 点。 


互 


命题 D。 在 有 向 图 中 ， 深 度 优先 搜索 标记 由 一 个 集合 的 顶点 可 达 的 所 有 顶点 所 需 的 时 间 与 被 标 
记 的 所 有 顶点 的 出 度 之 和 成 正比 。 


证 明 。 同 4.1.3.2 节 的 命题 A。 


图 4.2.3 显示 了 这 个 算法 在 处 理 示 例 有 向 图 时 的 操作 轨迹 。 这 份 轨迹 比 相 应 的 无 向 图 算法 的 ”|570 


轨迹 稍稍 简单 些 ， 因 为 深度 优先 搜索 本 质 上 是 一 种 适用 于 人 处理 有 向 图 的 算法 ， 每 条 边 都 只 会 被 表 
示 一 次 。 研 究 这 些 轨 迹 有 助 于 巩固 你 对 有 向 图 中 深度 优先 搜索 的 理解 。 


算法 4.4 有 向 图 的 可 达 性 


public class DirectedDFS 
{ 


private boolean[] marked; 


public DirectedDFS(Digraph G, int s) 
{ 
marked = new boolean[G.VO]; 
dfs(G, s); 
} 


public DirectedDFS(Digraph G, Iterable<Integer> sources) 
{ 
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marked = new boolean[G.VO]; 
for (int s : sources) 
if (CImarked[s]) dfs(G, s); 


} 
private void dfs(Digraph C，int v) % java DirectedDFS tinyDG.txt 1 
{ 1 
marked[v] = true; 
for (Cint w : G.adj(v)) % java DirectedDFS tinyDG.txt 2 
if (lmarked[w]) dfs(G, w); O02 39405 
} 


% java DirectedDFS tinyDG.txt 1 2 6 
public boolean marked(int v) QW 2 3 4359099 T0012 
{ return marked[v]; 了 


public static void main(String[] args) 
证 
Digraph G = new Digraph(new InCargs[0]7); 


Bag<Integer> sources = new Bag<Integer>() ; 
for (int i = 1; i < args.length; i++) 
sources.add(Integer.parseInt(args[i])); 


DirectedDFS reachable = new DirectedDFS(G, sources); 


for (Cint v = 0; Vv < G.VO; v++) 
if (reachable.marked(v)) StdOut.print(v + " "); 
StdOut.print1nQO; 


} 
这 份 深度 优先 搜索 的 实现 使 得 用 例 能 够 判断 从 给 定 的 一 个 或 者 一 组 项 点 能 到 达 哪 些 其 他 顶点 。 


4.2.3.1 标记 - 清除 的 垃圾 收集 

多 点 可 达 性 的 一 个 重要 的 实际 应 用 是 在 典型 的 内 存 管理 系统 中 ， 包 括 许 多 Java 的 实现 。 
幅 有 向 图 中 ， 一 个 顶点 表示 一 个 对 象 ， 一 条 边 则 表示 一 个 对 象 对 男 一 个 对 象 的 引用 。 这 个 模型 很 好 
地 表现 了 运行 中 的 Java 程序 的 内 存 使 用 状况 。 在 程序 执行 的 任何 时 候 都 有 某 些 对 象 是 可 以 被 直接 
访问 的 ， 而 不 能 通过 这 些 对象 访 问 到 的 所 有 对 象 都 应 该 被 回收 以 便 释 放 内 存 (请 见 图 4.2.4) 。 标 
记 一 清除 的 垃圾 回收 策略 会 为 每 个 对 象 保留 一 个 位 做 垃圾 收集 之 用 。 它 会 周期 性 地 运行 一 个 类 似 于 
DirectedDFS 的 有 向 图 可 达 性 算法 来 标记 所 有 可 以 被 访问 到 的 对 象 ， 然 后 清理 所 有 对 象 ， 回 收 没有 
被 标记 的 对 象 ， 以 腾 出 内 存 供 新 的 对 象 使 用 。 
4.2.3.2 ”有 向 图 的 寻 路 

DepthFirstPaths (4.1.4.1 节 算 法 4.1) 和 BreadthFirstPaths (4.1.5 节 算 法 4.2 ) 也 都 是 有 
向 图 处 理 中 的 重要 算法 。 和 刚才 一 样 ， 同 样 的 API 和 代码 ( 仅 将 Graph 替换 为 Digraph ) 也 能 够 
高 效 地 解决 以 下 问题 。 

单 点 有 向 路 径 。 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目 的 顶点 v 是 否 存 在 一 条 有 
向 路 径 ? 如 果 有 ， 找 出 这 条 路 径 。” 等 类 似 问 题 。 

单 点 最 短 有 向 路 径 。 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目的 顶点 V 是否 存在 一 
条 有 向 路 径 ? 如 果 有 ， 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 ) 。” 等 类 似 问 题 。 
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到 4.2.3 ”使 用 深度 优先 搜索 在 一 幅 有 向 图 
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DirectedPaths 和 BreadthFirstDirectedPaths。 


4.2.4 环 和 有 向 无 环 图 
在 和 有 向 图 相关 的 实际 应 用 
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中 寻找 能 够 从 顶点 0 到 达 的 所 有 顶点 的 轨迹 
在 本 书 的 网 站 上 以 及 本 节 最 后 的 练习 中 ,我 们 将 以 上 问题 的 答案 分 别 命名 为 DepthFirst- |572 


PF， 有 向 环 特别 的 重要 。 没 有 计算 机 的 帮助 ， 在 一 幅 普 通 的 有 向 图 


中 找 出 有 向 环 可 能 会 很 困难 。 从 原则 上 来 说， 一 幅 有 向 图 可 能 含有 大 量 的 环 ; 在 实际 应 用 中 ， 我 们 
一 般 只 会 重点 关注 其 中 一 小 部 分 ,或 者 只 想 知道 它们 是 否 存在 (请 见 图 4.2.5 ) 。 
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图 4.2.4 垃圾 回收 示意 图 图 4.2.5 这 幅 有 向 图 含有 有 向 环 吗 
为 了 在 有 向 图 处 理 中 研究 有 向 环 的 作用 更 加 有 趣 , 我 们 来 看 看 下 面 这 个 有 向 图 模型 的 原型 应 用 。 
4.2.4.1 调度 问题 
种 应 用 广泛 的 模型 是 给 定 一 组 任务 并 安排 它们 的 执行 顺序 ， 限 制 条 件 是 这 些 任务 的 执行 方法 
和 起 始 时 间 。 限 制 条 件 还 可 能 包括 任务 的 时 耗 以 及 消耗 的 其 他 资源 。 最 重要 的 一 种 限制 条 件 叫做 优 
先 级 限制 ， 它 指明 了 哪些 任务 必须 在 哪些 任务 之 前 完成 。 不 同类 型 的 限制 条 件 会 产生 不 同类 型 不 同 
难度 的 调度 问题 。 研究 者 已 经 解决 了 上 千 种 不 同 的 此 类 问题 , 而且 还 在 为 其 中 许多 寻找 更 好 的 算法 。 
以 一 个 正在 安排 课程 的 大 学 生 为 例 ， 有 些 课程 是 其 他 课程 的 先导 课程 ， 如 图 4.2.6 所 示 。 


如 果 再 
优先 级 


科学 计算 


计算 机 科学 理论 


计算 机 科学 导 引 


神经 网 乡 
全 


图 4.2.6 有 优先 级 限制 的 调度 问题 


假设 该 学 生 一 次 只 能 修一 门 课 , 实际 上 就 遇 到 了 下 面 这 个 问题 。 
限制 下 的 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优 


先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何 安排 并 完成 所 有 任务 ? 


对 于 任 
优先 级 顺序 


意 一 个 这 样 的 问题 ， 我 们 都 可 以 马上 画 出 一 张 有 向 图 ， 其 中 顶点 对 应 任务 ， 有 向 边 对 应 
-为 了 简化 问题 ,我们 以 使 用 整数 为 顶点 编号 的 标准 模型 来 表示 这 个 示例 ,如 图 4.2.7 所 示 。 
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在 有 向 图 中 , 优先 级 限制 下 的 调度 问题 等 价 于 下 面 这 个 基本 的 问题 。 


全 (6 一 一 (8) 拓扑 排序 。 给 定 一 幅 有 向 图 ， 将 所 有 的 顶点 排序 ， 使 得 所 有 的 
有 向 边 均 从 排 在 前 面 的 元 素 指向 排 在 后 面 的 元 素 ( 或 者 说 明 无 法 做 
9 到 这 一 点 ) 。 
(4) 
Sell DD 


图 4.2.8 为 示例 的 拓扑 排序 。 所 有 的 边 都 是 向 下 的 ， 所 以 它 清晰 
地 表示 了 这 幅 有 向 图 模型 所 代表 的 有 优先 级 限制 的 调度 问题 的 一 个 
解决 方法 : 按照 这 个 顺序 ， 该 同学 可 以 在 满足 先导 课程 限制 的 条 件 
下 修 完 所 有 课程 。 这 个 应 用 是 很 典型 的 一 一 表 4.2.4 列举 了 其 他 一 些 


图 4.2.7 标准 有 向 图 模型 
有 代表 性 的 应 用 。 


表 4.2.4 拓扑 排序 的 典型 应 用 ee 
应 用 顶 点 边 | | 
任务 调度 任务 优先 级 限制 微 积分 
课程 安排 课程 先导 课程 限制 9) 线性 代数 
继承 Java 类 extends 关系 
计算 机 科学 导 引 
BE 子 表格 单元 格 (cell ) 公式 
符号 链接 文件 名 链接 @ 高 级 编程 
4.2.4.2 ”有 向 图 中 的 环 有 
如 果 任 务 x 必须 在 任务 y 之 前 完成 ， 而 任务 y 必须 (6) 计算 机 科学 理论 
在 任务 z 之 前 完成 , 但 任务 z 又 必须 在 任务 x 之 前 完成 ， 
那 肯定 是 有 人 搞 错 了 ， 因 为 这 三 个 限制 条 件 是 不 可 能 被 9) A 
同时 满足 的 。 一 般 来 说 ， 如 果 一 个 有 优先 级 限制 的 问题 0 计算 机 机 器 人 
中 存在 有 向 环 ， 那 么 这 个 问题 肯定 是 无 解 的 。 要 检查 这 i 机 器 学 习 
种 错误 ， 需 要 解决 下 面 这 个 问题 。 
有 向 环 检 测 。 给 定 的 有 向 图 中 包含 有 回环 吗 ? 如 果 GD 神经 网 络 
有 ， 按 照 路 径 的 方向 从 某 个 顶点 并 返回 自己 来 找到 环 上 四 数据 库 
的 所 有 顶点 。 
一 幅 有 向 图 中 含有 的 环 的 数量 可 能 是 图 的 大 小 的 指 ©) 科学 计算 
数 级 别 (请 见 练习 4.2.11 ) ， 因 此 我 们 只 需要 找 出 一 个 环 (a) 计算 生物 学 


即 可 ， 而 不 是 所 有 环 。 在 任务 调度 和 其 他 许多 实际 问题 
中 不 允许 出 现 有 向 环 ， 因 此 不 含有 环 的 有 向 图 就 变 得 很 
特殊 。 


双 


4.2.8 ”拓扑 排序 


定义 。 有 向 无 环 图 (DAG ) 就 是 一 幅 不 含有 向 环 的 有 向 图 。 


因此 ， 解 决 有 向 环 检测 的 问题 可 以 回答 下 面 这 个 问题 : 一 幅 有 向 图 是 有 向 无 环 图 吗 ? 基于 深度 优 
先 搜索 来 解决 这 个 问题 并 不 困难 ， 因 为 由 系统 维护 的 递归 调用 的 栈 表示 的 正 是 “当前 ”正在 遍历 的 有 
向 路 径 〈 就 好 像 用 Tremaux 方法 探索 迷宫 时 的 那 条 绳子 一 样 ) 。 一 旦 我 们 找到 了 一 条 有 向 边 v 一 w 且 
w 已 经 存在 于 栈 中 ， 就 找到 了 一 个 环 ， 因 为 栈 表 示 的 是 一 条 由 w 到 v 的 有 向 路 径 ， 而 v 一 w 正 好 补 全 
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了 这 个 环 。 同时， 如 果 没 有 找到 这 样 的 边 ， 那 就 意味 着 这 幅 有 向 图 是 无 环 的 ， 见 图 4.2.9。 请 见 后 面 
框 注 “ 寻 找 有 向 环 ”， 该 框 注 中 的 DirectedCycle 基于 这 个 思想 实现 了 表 4.2.5 中 的 API。 


public class 


boolean 


Iterable<Integer> 


寻找 有 向 环 


表 4.2.5 有 向 环 的 API 


DirectedCycle 

DirectedCycle(Digraph GO) 寻找 有 向 环 的 构造 函数 

hasCycle(O) G 是 否 含有 有 向 环 

cycle() 有 向 环 中 的 所 有 顶点 ( 如 果 存 在 的 话 ) 

marked[] edgeTo[] onStack[] 
O12 34 3.0 Ql1Z2345 a OL2343 ss 
dfs(0) 
dfs(5) 1 0 1 
dfs(4) 1 5 1 

dfs(3) 1 4 1 
检查 5 号 顶点 100111 = 0 10011@ 
图 4.2.9 ”在 一 幅 有 向 图 中 寻找 环 


public class DirectedCycle 


{ 


private boolean[] marked; 

private int[] edgeTo; 

private Stack<Integer> cycle; // 有 向 环 中 的 所 有 顶点 ( 如果 存在 ) 
private boolean[] onStack; // 递归 调用 的 栈 上 的 所 有 顶点 


public DirectedCycle (Digraph GO) 


{ 
onStack new 
edgeTo new 
marked = new 


I 


boolean[G.VO]; 
int[G.VO]; 
boolean[G.VO]; 


for (int Vv = 0; v < G.VO; v++) 


if (CImarked[v]) dfs(G, v); 


lL 


private void dfs(Digraph G, int v) 


{ 


onStack[v] = true; 
marked[v] = true; 
for (int w : G.adj(v)) 


edgeTo[] 
0 


MROWODLDPp 
小 


if (this.hasCycle()) return; v w x 有 向 环 
else if (!marked[w]) 3 


3 
{ edgeTo[w] = v; dfs(G, w); } oe 
else if (onStack[w]) 3 3 


{ 


cycle = 


3 
43 
543 


有 向 环 检测 的 轨迹 


new 9Stack<Integer>() ; 


for (int x = v; x != wj x = edgeTo[x]) 
cycle.push(x); 


cycle.push(w); 
cycle.push(v); 


} 


onStack[v] = false; 
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public boolean hasCycleQ) 
{ return cycle != null; } 


public Iterable<Integer> cycleQ) 
{ return cycle; 了 
} 
该 类 为 标准 的 递归 dfs 0) 方法 添加 了 一 个 布尔 类 型 的 数组 onStack[] 来 保存 递归 调用 期 间 栈 上 的 
所 有 项 点 。 当 它 找到 一 条 边 v 一 w 且 w 在 栈 中 时 ， 它 就 找到 了 一 个 有 向 环 。 环 上 的 所 有 顶点 可 以 通过 
edgeTo[] 中 的 链接 得 到 。 


在 执行 dfs(G,v) 时 ， 查 找 的 是 一 条 由 起 点 到 v 的 有 向 路 径 。 要 保存 这 条 路 径 ，Direc- 
tedCycle 维护 了 一 个 由 顶点 索引 的 数组 onStack[] ， 以 标记 递归 调用 的 栈 上 的 所 有 顶点 (在 调用 
dfs(G,v) 时 将 onStack[v] 设 为 true， 在 调用 结束 时 将 其 设 为 false ) 。DirectedCycle 同时 也 
使 用 了 一 个 edgeTo[] 数组 ， 在 找到 有 向 环 时 返回 环 中 的 所 有 顶点 ， 方 法 和 DepthFirstPaths (请 
见 算 法 4.1 ) 以 及 BreadthFirstPaths (请 见 算法 4.2 ) 相同 。 
4.2.4.3 ”顶点 的 深度 优先 次 序 与 拓扑 排序 

优先 级 限制 下 的 调度 问题 等 价 于 计算 有 向 无 环 图 中 的 所 有 顶点 的 拓扑 顺序 ， 因 此 有 表 4.2.6 所 
示 的 API。 


表 4.2.6 拓扑 排序 的 API 


public class Topological 


Topological (Digraph G) 拓扑 排序 的 构造 函数 
boolean isDAG(O) G 是 有 向 无 环 图 吗 
Iterable<Integer> order() 拓扑 有 序 的 所 有 顶点 


命题 E。 当 且 仅 当 一 幅 有 向 图 是 无 环 图 时 它 才 能 进行 拓扑 排序 。 


证 明 。 如 果 一 幅 有 向 图 含有 一 个 环 ， 它 就 不 可 能 是 拓扑 有 序 的 。 与 此 相反 ， 我 们 将 要 学 习 的 算 
法 能 够 计算 任意 有 向 无 环 图 的 拓扑 顺序 。 


值得 注意 的 是 ， 实 际 上 我 们 已 经 见 过 一 种 拓扑 排序 的 算法 : 只 要 添加 一 行 代码 ， 标 准 深度 优先 
搜索 程序 就 能 完成 这 项 任务 ! 要 做 到 这 一 点 ， 我 们 先 来 看 看 后 面 框 注 “有 向 图 中 基于 深度 优先 搜索 
的 顶点 排序 ”的 DepthFirstOrder 类 。 它 的 基本 思想 是 深度 优先 搜索 正好 只 会 访问 每 个 顶点 一 次 。 
如 果 将 dfs 0O) 的 参数 顶点 保存 在 一 个 数据 结构 中 ,遍历 这 个 数据 结构 实际 上 就 能 访问 图 中 的 所 有 项 
点 ,遍历 的 顺序 取决 于 这 个 数据 结构 的 性 质 以 及 是 在 递归 调用 之 前 还 是 之 后 进行 保存 。 在 典型 的 应 
中 ， 人 们 感 兴趣 的 是 顶点 的 以 下 3 种 排列 顺序 。 
口 前 序 : 在 递归 调用 之 前 将 顶点 加 入 队列 。 
口 后 序 : 在 递归 调用 之 后 将 顶点 加 入 队列 。 
口 闭 后 序 : 在 递归 调用 之 后 将 顶点 压 人 栈 。 
到 4.2.10 所 示 的 是 用 DepthFirstOrder 处 理 示 例 有 向 无 环 图 所 产生 的 轨迹 。 它 的 实现 简 
单 ， 文 持 在 图 的 高 级 处 理 算法 中 十 分 有 用 的 pre()、postQ) 和 reversePost( 方法 。 例 如 ， 
Topological 类 中 的 order0 方法 就 调用 了 reversePost() 方法 。 


LU 
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前 序 就 是 dfs () 后 序 就 是 顶点 遍 
的 调用 顺序 历 完成 的 顺序 
pre post reversePost 
dfs(0) 0 
dfs(5) 0 5 万 7 E 
dfs(4) 05 4 队列 队列 楼 
4 完 / 
5 完成 45 5 4 
dfs(1) 0541 
1 完成 451 154 
dfs(6) 05416 
dfs(9) 054169 
dfs(11) 5 911 
dfs(12) 054169 1112 
12 完成 451 12 12154 
11 完成 451 1211 En 
dfs(10) 054169 11 1210 
10 完成 45112 1110 10 11 12154 
检查 12 
9 完成 45112 11109 910 1112154 
检查 4 
6 完成 45112111096 69101112154 
0 完成 451121110960 069101112154 
检查 1 
dfs(2) 054169 11 12 102 
检查 0 
dfs(3) 05416911121023 
检查 5 
3 完成 4511211109603 3069101112154 
2 完成 45112111096032 23069101112154 
检查 3 
检查 4 
检查 5 
检查 6 
dfs(7) 054169111210237 
检查 6 
7 完成 451121110960327 T2306 9 11 12154 
dfs(8) 0541691112102378 
检查 7 
8 完成 45112111096032788723069101112154 
检查 9 
检查 10 f 
检查 11 遂 后 
检查 12 过后 序 
579 图 4.2.10 计算 有 向 图 中 顶点 的 深度 优先 次 序 〈 前 序 、 后 序 和 逆 后 序 ) 
有 向 图 中 基于 深度 优先 搜索 的 顶点 排序 
public class DepthFirstOrder 
{ 
private boolean[] marked; 
private Queue<Integer> pre; // 所 有 顶点 的 前 序 排 列 
private Queue<Integer> post; // 所 有 顶点 的 后 序 排列 


private Stack<Integer> reversePost; // 所 有 顶点 的 逆 后 序 排列 
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public DepthFirstOrder(Digraph ©) 


{ 
pre = New Queue<Integer>(Q); 
post = New Queue<Integer>() ; 
reversePost = new Stack<Integer>() ; 
marked = new boolean[G.VO]; 
for (int v = 0; Vv < G.VO; v++) 
if (!marked[v]) dfs(G, Vv); 
} 
private void dfs(Digraph G, int v) 
{ 
pre.enqueue(Vv); 
marked[v] = true; 
for (int w : G.adj Vv) 
if (!marked[w]) 
dfs(G, w); 
post.enqueue(v); 
reversePost.push(v); 
} 


public Iterable<Integer> preQO 

{ return pre; } 

public Iterable<Integer> post() 

{ return post; +} 

public Iterable<Integer> reversePost() 
{ return reversePost; } 


} 
该 类 允许 用 例 用 各 种 顺序 遍历 深度 优先 搜索 经 过 的 所 有 顶点 。 这 在 高 级 的 有 疝 图 处 理 算法 中 非常 有 
用 ， 因 为 搜索 的 递归 性 使 得 我 们 能 够 证 明 这 段 计算 的 许多 性 质 ( 例如 命题 F) 。 580 


算法 4.5 ”拓扑 排序 


public class Topological 


{ 
private Iterable<Integer> order; // 顶点 的 拓扑 顺序 


public Topological(Digraph 0G) 

{ 
DirectedCycle cyclefinder = new DirectedCycle(G) ; 
if (!cyclefinder.hasCycle()) 


DepthFirstOrder dfs = new DepthFirstOrder(G) ; 


order = dfs.reversePost() ; 


} 


public Iterable<Integer> order() 
{ return order; 了 

public boolean isDAGO) 

{ return order != nul1; } 
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public static void main(String[] args) 


攻 
String filename = args[0]; 
String separator = args[1]; 
Symbol1Digraph sg = new SymbolDigraph(filename, separator); 
Topological top = new Topological(sg.GO); 


for (int v : top.orderO) 
Stdout .println(Csg.name(Cv) ) ; 


} 


这 段 代码 使 用 了 DepthFirstOrder 类 和 DirectedCycle 类 来 返回 一 幅 有 向 无 环 图 的 拓扑 排序 。 
其 中 的 测试 代码 解决 了 一 幅 Symbol1Digraph 中 有 优先 级 限制 的 调度 问题 。 在 给 定 的 有 向 图 包含 环 时 ， 
order() 方法 会 返回 nu11， 否 则 会 返回 一 个 能 够 给 出 拓扑 有 序 的 所 有 顶点 的 迭代 器 。 这 里 省 略 了 关于 
Symbo1Digraph 的 代码 ， 因 为 它 和 SymbolGraph (请 见 第 356 页 ) 的 代码 几乎 完全 相同 ， 只 需 把 所 有 的 
Graph 替换 为 Digraph 即 可 。 


命题 F。 一 幅 有 向 无 环 图 的 拓扑 顺序 即 为 所 有 顶点 的 逆 后 序 排列 。 


证 明 。 对 于 任意 边 v 一 w， 在 调用 dfs(v) 时 ， 下面 三 种 情况 必 有 其 一 成 立 (请 见 图 4.2.11 ) 。 

口 dfs(Cw) 已 经 被 调用 过 且 已 经 返回 了 (w 已 经 被 标记 ) 。 

口 dfs(w) 还 没有 被 调用 (w 还 未 被 标记 ) ， 因 此 v 一 w 会 直接 或 间接 调用 并 返回 

dfs(w)， 且 dfs(w) 会 在 dfs(v) 返回 前 返回 。 

口 dfs(w) 已 经 被 调用 但 还 未 返回 。 证 明 的 关键 在 于 ， 在 有 向 无 环 图 中 这 种 情况 是 不 可 能 出 
现 的 ,这 是 由 于 兹 归 调 用 链 意味 着 存在 从 w 到 v 的 路 径 , 但 存在 v 一 w 则 表示 存在 一 个 环 。 
在 两 种 可 能 的 情况 中 ，dfs(w) 都 会 在 dfs(v) 之 前 完成 ， 因 此 在 后 序 排列 中 wW 排 在 v 之 前 而 

在 逆 后 序 中 w 排 在 v 之 后 。 因 此 任意 一 条 边 v 一 ww 都 如 我 们 所 愿 地 从 排名 较 前 顶点 指向 排名 较 后 的 

顶点 


sm\o 


% more jobs.txt 

Algorithms/Theoretical CS/Databases/Scientific Computing 
Introduction to CS/Advanced Programming/Algorithms 

Advanced Programming/Scientific Computing 

Scientific Computing/Computational Biology 

Theoretical CS/Computational Biology/Artificial Intelligence 
Linear Algebra/Theoretical CS 

Calculus/Linear Algebra 

Artificial Intelligence/Neural Networks/Robotics/Machine Learning 
Machine Learning/Neural Networks 


% java Topological jobs.txt "/" 
Calculus 

Linear Algebra 
Introduction to CS 
Advanced Programming 
Algorithms 

Theoretical CS 
Artificial Intelligence 
Robotics 

Machine Learning 

Neural Networks 
Databases 

Scientific Computing 
Computational Biology 


Topological 类 ( 请 见 算法 4.5 ) 的 实现 使 
用 了 深度 优先 搜索 来 对 有 向 无 环 图 进行 拓扑 排 
序 。 图 4.2.11 为 排序 的 轨迹 。 


命题 G。 使 用 深度 优先 搜索 对 有 向 无 环 图 进 
行 拓扑 排序 所 需 的 时 间 和 VtE 成 正比 。 


证 明 。 由 代码 可 知 ， 第 一 遍 深度 优先 搜索 保 
证 了 不 存在 有 向 环 ， 第 三 遍 深度 优先 搜索 产 
生 了 项 点 的 逆 后 序 排列 。 两 次 搜索 都 访问 了 
所 有 的 顶点 和 所 有 的 边 ， 因 此 它 所 需 的 时 间 
和 和 VitE 成 正比 。 


尽管 算法 很 简单 ， 但 是 它 被 忽略 了 很 多 年 ， 
比 它 更 流行 的 是 一 种 使 用 队列 储存 项 点 的 更 加 直 
观 的 算法 。 (请 见 练习 4.2.30 ) 
在 实际 应 用 中 ， 拓 扑 排序 和 有 向 环 的 检测 总 
一 起 出 现 ， 因 为 有 向 环 的 检测 是 排序 的 前 提 。 
例如 ， 在 一 个 任务 调度 应 用 中 ， 无 论 计划 如 何 安 
排 ， 其 背后 的 有 向 图 中 包含 的 环 意味 着 存在 一 个 
必须 被 纠正 的 严重 错误 。 因 此 ， 解 决 任务 调度 类 
应 用 通常 需要 以 下 3 步 : 
口 指明 任务 和 优先 级 条 件 ; 
口 不 断 检测 并 去 除 有 向 图 中 的 所 有 环 ， 以 
确保 存在 可 行 方 案 的 ; 
口 使 用 拓扑 排序 解决 调度 问题 。 
类 似 地 ， 调 度 方案 的 任何 变动 之 后 都 需要 再 次 检查 
然后 再 计算 新 的 调度 安排 (使 用 Topological 类) 。 


1 


dfs(6) 向 上 指 包 


2 完成 记 的 相 邻 顶点 6 的 
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dfs(4) 在 dfs (0) 完 成 之 前 ， 
4 完成 处 理 顶点 0 的 未 被 
完成 <__ 标记 的 相 邻 顶点 5 
dfs(1) 的 dfs (5) 就 已 经 完 


完成 成 ， 因 此 0 一 5 是 


dfs(9) 
dfs(11) 
dfs(12) 
12 完成 
11 完成 
dfs (10) 
10 完成 
检查 12 


检查 5 在 dfs(7) 完 成 之 前 ， 
完成 处 理 顶 点 7 的 已 被 标 


3 dfs(6) 就 已 经 完成 ,一 < 、 


4 因此 7 一 6 是 向 上 指 的 


所 有 的 边 都 是 指向 《7) 


ts (5) 上 上 的， 颠倒 过 来 就 
7 是 一 次 拓扑 排序 


8 完成 


丛 查 
丛 查 
丛 查 
丛 查 


9 

10 
11 
12 


逆 后 序 就 是 顶点 
遍历 完成 顺序 的 
逆 (从 下 往 上 ) 


图 4.2.11 有 向 无 环 图 的 逆 后 序 是 拓扑 排序 


否 存在 环 (使 用 DirectedCycle 类 )， |582 
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4.2.5 ”有 向 图 中 的 强 连通 性 


在 前 文中 ， 我 们 仔细 区 别 了 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 。 在 一 幅 无 向 图 中 ， 如 果 有 
条 路 径 连 接 顶 点 v 和 w, 则 它们 就 是 连通 的 一 一 既 可 以 由 这 条 路 径 从 w 到 达 v, 也 可 以 从 v 到 达 w。 
相反 ， 在 一 幅 有 向 图 中 ， 如 果 从 顶点 v 有 一 条 有 向 路 径 到 达 w， 则 顶点 w 是 从 顶点 v 可 达 的 ， 但 从 
w 到 达 v 的 路 径 可 能 存在 也 可 能 不 存在 。 在 对 有 向 图 的 研究 中 ， 我 们 也 会 考虑 与 无 向 图 中 的 连通 性 


类 似 的 一 个 问题 。 


定义 。 如 果 两 个 顶点 v 和 Ww 是 互相 可 达 的 ， 则 称 它们 为 强 连 通 的 。 
到 w 的 有 向 路 径 ， 也 存在 一 条 从 w 到 v 的 有 向 路 径 。 如 果 一 幅 有 向 
连通 的 ， 则 称 这 幅 有 向 图 也 是 强 连 通 的 。 


图 4.2.12 给 出 了 几 个 强 连 通 图 的 例子 。 从 这 些 例 子 中 你 可 以 看 
到 ， 环 在 强 连 通 性 的 理解 上 起 着 重要 的 作用 。 事 实 上 ， 回 忆 一 下 一 
条 普通 的 有 向 环 可 能 含有 重复 的 顶点 就 很 容易 知道 ， 两 个 顶点 是 强 
连通 的 当 且 仅 当 它们 都 在 一 个 普通 的 有 向 环 中 (证 明 : 画 出 从 v 到 
w 和 从 w 到 v 的 路 径 即 可 ) 。 
4.2.5.1 强 连 通 分 量 

和 无 向 图 中 的 连通 性 一 样 ， 有 向 图 中 的 强 连通 性 也 是 一 种 顶点 
之 间 等 价 关 系 ， 因 为 它 有 着 以 下 性 质 。 

口 自 反 性 ; 任意 顶点 v 和 自己 都 是 强 连通 的 。 
口 对 称 性 : 如 果 v 和 w 是 强 连 通 的 , 那么 w 和 v 也 是 强 连通 的 。 
口 传递 性 : 如 果 v 和 w 是 强 连通 的 且 w 和 x 也 是 强 连通 的 ,， 那 
么 v 和 x 也 是 强 连通 的 。 
作为 一 种 等 价 关 系 ， 强 连通 性 将 所 有 顶点 分 为 了 一 些 等 价 类 ， 
每 个 等 价 类 都 是 由 相互 均 为 强 连通 的 顶点 的 最 大 子 集 组 成 的 。 我 们 
将 这 些 子 集 称 为 强 连通 分 量 ， 请 见 图 4.2.13。 样 图 tinyDG.txt 含 有 5 
个 强 连通 分 量 。 一 个 含有 VV 个 顶点 的 有 向 图 含有 1 ~ 个 强 连 通 分 
量 一 一 一 个 强 连 通 图 只 含有 一 个 强 连通 分 量 ， 而 一 个 有 向 无 环 图 中 
则 含有 了 个 强 连通 分 量 。 需 要 注意 的 是 强 连 通 分 量 的 定义 是 基于 顶 


也 就 是 说 ， 既 存在 一 条 从 Y 
图 中 的 任意 两 个 顶点 都 是 强 


图 4.2.12” 强 连通 的 有 向 图 


点 的 ， 而 非 边 。 有 些 边 连 接 的 两 个 顶点 都 在 同一 个 强 连通 分 量 中 ， 而 有 些 边 连接 的 两 个 顶点 则 在 不 
同 的 强 连 通 分 量 中 。 后 者 不 会 出 现在 任何 有 向 环 之 中 。 与 识别 连通 分 量 在 无 向 图 中 的 重要 性 一 样 ， 


在 有 向 图 的 处 理 中 识别 强 连 通 


分 量 也 是 非常 重要 的 。 


的 抽象 ， 它 突出 了 相互 关联 的 几 组 顶点 〈 强 连通 分 量 ) 。 


CR 4.2.5.2 ”应 用 举例 
Bg 在 理解 有 向 图 的 结构 时 ， 强 连通 性 是 一 种 非常 重要 


例如 ， 强 连通 分 量 能 够 帮助 教科 书 的 作者 决定 哪些 话题 
应 该 被 归 为 一 Pee 


表 4.2.7) 。 图 4.2.14 是 


生态 学 的 例子 。 这 幅 有 向 图 


捕 给 的 是 各 种 生物 之 问 的 食物 链 横 型 ， 其 中 顶点 表示 物 


图 4.2.13 一 幅 有 向 图 和 它 的 强 连 通 分 量 
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种 ， 而 从 一 个 顶点 指向 另 一 个 顶点 的 一 条 边 则 表示 
指向 顶点 的 物种 对 指出 顶点 的 物种 的 捕食 关系 。 这 


些 有 向 图 ( 其 中 物种 和 捕食 关系 都 是 经 过 仔细 选择 
和 研究 的 ) 的 科学 研究 有 效 地 帮助 了 生态 学 家 解决 
生态 系统 中 的 一 些 基 本 问题 。 这 种 有 向 图 中 的 强 连 
通 分 量 能 够 帮助 生态 学 家 理解 食物 链 中 能 量 的 流动 。 
图 4.2.17 所 示 的 是 一 张 表示 网 络 内 容 的 有 向 图 ， 其 
中 顶点 表示 网 页 ， 而 边 表示 从 一 个 页 面 指向 另 一 个 
页 面 的 超 链接 。 在 这 样 一 幅 有 向 图 中 ， 强 连通 分 量 
能 够 帮助 网 络 工程 师 将 网 络 中 数量 庞大 的 网 页 分 为 
多 个 大 小 可 以 接受 的 部 分 分 别 进行 处 理 。 练 习 和 本 
书 的 网 站 会 涉及 这 些 应 用 和 其 他 例子 的 更 多 性 质 。 


图 4.2.14 一 幅 表示 食物 链 的 有 向 图 的 一 


小 部 分 
表 4.2.7“ 强 连通 分 量 的 典型 应 用 
应 ”用 项 点 边 
et 网 页 超 链接 
教科 书 话题 引用 
软件 模块 调用 584 
食物 链 物种 捕食 关系 585 


因此 ， 在 有 向 图 中 我 们 也 需要 表 4.2.8 所 列 的 这 份 和 CC ( 请 见 表 4.1.6 ) 类 似 的 API。 


表 4.2.8 强 连 通 分 量 的 API 
public class SCC 


SCCCDigraph G) 预 处 理 构 造 函 数 
boolean stronglyConnected(int v, int w) Vv 和 w 是 强 连 通 的 吗 
int count() 图 中 的 强 连 通 分 量 的 总 数 
: v 所 在 的 强 连 通 分 量 的 标识 符 (在 0 至 
int idGint v) count() -1 之 间 ) 


设计 一 种 平方 级 别 的 算法 来 计算 强 连通 分 量 ( 请 见 练习 4.2.23 ) 并 不 困难 ,但 ( 和 以 前 一 样 ) 
对 于 处 理 在 实际 应 用 中 经 常 遇 到 的 像 刚才 示例 所 示 的 大 型 有 向 图 来 说 ,平方 级 别 的 时 间 和 空间 需求 
是 不 可 接受 的 。 
4.2.5.3 ”Kosaraju 算法 
我 们 在 CC ( 请 见 算法 4.3 ) 中 看 到 过 ， 计 算 无 向 图 中 的 连通 分 量 只 是 深度 优先 搜索 的 一 
个 简单 应 用 。 那 么 在 有 向 图 中 应 该 如 何 高 效 地 计算 强 连 通 分 量 呢 ? 邻 人 惊讶 的 是 ， 算 法 4.6 中 
的 KosarajuCC 的 实现 只 为 CC 添加 了 几 行 代码 就 做 到 了 这 一 点 ， 它 将 会 完成 以 下 任务 (请 见 
图 4.2.15 ) 。 
口 在 给 定 的 一 幅 有 向 图 G 中 ,使 用 DepthFirstOrder 来 计算 它 的 反 向 图 G* 的 逆 后 序 排列 。 
口 在 G 中 进行 标准 的 深度 优先 搜索 ,但 是 要 按照 刚才 计算 得 到 的 顺序 而 非 标准 的 顺序 来 访问 
所 有 未 被 标记 的 顶点 。 
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口 在 构造 函数 中 ,所 有 在 同一 个 递归 dfs 0) 调用 中 被 访问 到 的 项 点 都 在 同一 个 强 连通 分 量 中 ， 


将 它们 按照 和 CC 相同 的 方式 识别 出 来 。 


在 6 中 进行 深度 优先 搜索 在 G" 中 进行 深度 优先 搜索 
(KosarajuSCC) (DepthFirstOrder) 
: 假设 v 对 于 s 是 可 : RR 
”dfs(s) 达 的 ， 那 么 G 中 ”dfs(s) 
必定 含有 一 条 从 : 
- > 深度 优 : 4 路径 
dfsCwA 5 到 V 的 路 径 0 sw 
: 开 s 之 前 就 离 
一 开 了 v， 否 则 网 
Y 完成 G 中 dfsCv) 的 \ .VY 完成 
调用 就 会 发 : 
生 在 dfs(s) 之 前 


a 
让 
水 
wm 
总 
Ba 


不 可 能 ， 因 为 G" 中 含 
有 一 条 从 Vv 到 S 的 路 径 


图 4.2.15 Kosaraju 算法 的 正确 性 证 明 


算法 4.6 ”计算 强 连通 分 量 的 Kosaraju 算法 


public class KosarajuSCC 


{ 


private boolean[] marked; // 已 访问 过 的 顶点 
private int[] id; // 强 连通 分 量 的 标识 符 
private int count; // 强 连通 分 量 的 数量 


public KosarajuSCC(Digraph ©) 


{ 
marked = new boolean[G.VO]; 
id = new int[G.VO]; 
DepthFirstOrder order = new DepthFirstOrder(G.reverse()); 
for (int s : order.reversePost()) 
if (!marked[s]) 
人 % java KosarajuSCC tinyDG .txt 
} 5 components 
ul 
private void dfs(Digraph G, int v) SA 0 
{ T2109 
marked[v] = true; 6 
id[v] = count; Se 


for (int w : G.adj(v)) 
if (!marked[w]) 
dfs(G, w); 
} 


public boolean stronglyConnected(int v, int w) 
{ return id[v] == id[w]; } 


public int idCint v) 
{ return id[v]; } 


public int count() 
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{ _ return count; } 


} 


突出 显示 的 代码 是 这 份 实现 和 CC ( 请 见 算法 4.3 ) 仅 有 的 不 同 之 处 (还 需要 将 4.1.6.1 节 中 用 到 的 
main() 函数 中 的 Graph 替换 为 Digraph，CC 替换 为 KosarajuSCC ) 。 为 了 找到 所 有 强 连通 分 量 ， 它 会 


在 反 向 图 中 进行 深度 优先 搜索 来 将 顶点 排序 ( 搜索 顺序 的 逆 后 序 ) ， 在 给 定 有 向 图 中 用 这 个 顺序 再 进行 
一 次 深度 优先 搜索 。 


Kosaraju 算法 是 一 个 典型 示例 ， 这 个 方法 容易 实现 但 难以 理解 。 尽 管 它 有 些 神秘 ， 但 如 果 你 能 
一 步 一 步 地 理解 下 面 这 个 命题 的 证 明 并 参考 图 4.2.15， 那 你 一 定 可 以 理解 这 个 算法 的 正确 性 。 


命题 H。 使 用 深度 优先 搜索 查找 给 定 有 向 图 G 的 反 向 图 生 ， 根 据 由 此 得 到 的 所 有 顶点 的 逆 后 
序 再 次 用 深度 优先 搜索 处 理 有 向 图 G (Kosaraju 算法 ) ， 其 构造 函数 中 的 每 一 次 递归 调用 所 标 
记 的 顶点 都 在 同一 个 强 连 通 分 量 之 中 。 


证 明 。 首 先 要 用 反 证 法 证 明 “ 每 个 和 s 强 连通 的 顶点 v 都 会 在 构造 函数 调用 的 dfs(G,s) 中 
被 访问 到 ”。 假设 有 一 个 和 s 强 连通 的 顶点 v 不 会 在 构造 函数 调用 的 dfs(G,s) 中 被 访问 到 。 
因为 存在 从 s 到 v 的 路 径 ， 所 以 v 肯定 在 之 前 就 已 经 被 标记 过 了 。 但 是 ， 因 为 也 存在 从 v 到 
s 的 路 径 , 在 dfs(G,v) 调用 中 s 肯定 会 被 标记 ， 因 此 构造 函数 应 该 是 不 会 调用 dfs(G,s) 的 。 
矛盾 。 

其 次 ， 要 证 明 “ 构 造 函 数 调用 的 dfs(G,s) 所 到 达 的 任意 顶点 v 都 必然 是 和 s 强 连通 的 ”。 
设 v 为 dfs(G,s) 到 达 的 某 个 顶点 。 那 么 ，G 中 必然 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 需要 证 
明 G 中 还 存在 一 条 从 Vv 到 s 的 路 径 即 可 。 这 也 等 价 于 G" 中 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 
需要 证 明 在 G" 中 存在 一 条 从 s 到 v 的 路 径 即 可 。 

证 明 的 核心 在 于 ,按照 逆 后 序 进行 的 深度 优先 搜索 意味 着 ,在 G" 中 进行 的 深度 优先 搜索 中 ， 
dfs(G,v) 必然 在 dfs(G,s) 之 前 就 已 经 结束 了 ， 这 样 dfs(G,v) 的 调用 就 只 会 出 现 两 种 
| 

口 调用 在 dfs(G,s) 的 调用 之 前 (并且 也 在 dfs(G,s) 的 调用 之 前 结束 ) ; 

口 调用 在 dfs(G,s) 的 调用 之 后 (并 且 也 在 dfs(G,s) 的 结束 之 前 结束 ) 。 

第 一 种 情况 是 不 可 能 出 现 的 ， 因 为 在 G" 中 存在 一 条 从 v 到 s 的 路 径 ; 而 第 二 种 情况 则 说 明 G™ 
中 存在 一 条 从 s 到 v 的 路 径 。 证 毕 。 


图 4.2.16 所 示 为 Kosaraju 算法 处 理 tinyDG.txt 时 的 轨迹 。 在 每 次 dfs() 调用 轨迹 的 右 侧 都 是 
有 向 图 的 一 种 夯 法 ， 顶 点 按照 搜索 结束 的 顺序 排列 。 因 此 ， 从 下 往 上 来 看 左 侧 这 幅 有 向 图 的 反 向 图 
得 到 的 就 是 所 有 项 点 的 逆 后 序 ， 也 就 是 在 原始 的 有 向 图 中 进行 深度 优先 搜索 时 所 有 未 被 标记 的 顶点 
被 检查 的 顺序 。 你 可 以 从 图 中 看 到 ， 在 第 二 遍 深 度 优先 搜索 中 ， 首 先 调用 的 是 dfs (1) (标记 顶点 


用 dfs(11) (标记 顶点 11、12、9 和 10)，, 在 检查 了 9、12 和 10 之 后 调用 dfs(6) (标记 顶点 6)， 
最 后 调用 dfs(7) 标记 了 顶点 7 和 8。 
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589 


在 反 向 图 中 进行 深度 优先 搜索 (ReversePost) 
[Dy 


按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
0123456789101112 


dfs(0) 
dfs(6) (8) 
dfs(7) 
dfs(8) 
检查 7 Q) 
8 
7 完成 
6 完成 (6) 
dfs(2) 
dfs(4) 
dfs(11) (0) 
dfs(9) 
dfs(12) 
念 奋 11 (2) 
dfs (10) 
检查 9 
10 完成 \9) 
12 完成 
检查 6 QD 
9 完成 
11 完成 
检查 6 (3) 
dfs(5) 
dfs(3) 
丛 查 4 C5) 
检查 2 (7 
时 《ke 
5 完成 
4 完成 (2) 
检查 3 
完成 
0 完成 (0) 
dfs(1) 
检查 0 
1 完成 
仿 查 2 
仿 查 3 1 
ee 供 第 一 次 深度 
从 查 6 优先 搜索 使 用 的 
检查 7 逆 后 序 (从 下 往 上 ) 
仿 查 8 
检查 9 
检查 10 
检查 11 
检查 12 


4.2.16 ”在 有 向 


在 原始 的 有 向 图 中 i 


行 深度 优先 搜索 


(569s) 


这 


(CD XN» 
SY 


按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
1024531191210678 


图 中 寻找 强 连通 分 量 的 Kosaraju 算法 


图 4.2.17 中 所 示 的 是 一 个 更 大 的 示例 ， 也 是 Web 的 有 向 图 模型 的 一 个 非常 小 的 部 分 。 
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本 


4.2.17 这 幅 有 向 图 中 含有 多 少 个 强 连通 分 量 


我 们 在 第 1 章 已 经 介绍 过 Kosaraju 算法 并 在 4.1 节 中 再 次 使 用 该 算法 解决 了 无 向 图 的 连通 性 问 
题 。Kosaraju 算法 也 解决 了 有 向 图 中 的 类 似 问题 。 

强 连通 性 。 给 定 一 幅 有 向 图 ， 回 答 “ 给 定 的 两 个 顶点 是 强 连 通 的 吗 ? 这 幅 有 向 图 中 含有 多 少 个 
强 连通 分 量 ? ”等 类 似 问 题 。 

我 们 能 否 用 和 无 向 图 相同 的 效率 解决 有 向 图 的 连通 性 问题 ? 这 个 问题 已 经 被 研究 了 很 长 时 间 了 
(RE.Tarjan 在 20 世纪 70 年 代 末 人 解决 了 这 个 问题 ) 。 这 样 一 个 简单 的 解决 方法 实在 令 人 惊讶 。 


命题 |。Kosaraju 算法 的 预 处 理 所 需 的 时 间 和 空间 与 VtE 成 正比 且 支 持 常 数 时 间 的 有 向 图 强 连 
通 性 的 查询 。 


证 明 。 该 算法 会 处 理 有 向 图 的 反 向 图 并 进行 两 次 深度 优先 搜索 。 这 3 步 所 需 的 时 间 都 与 VE 成 
正比 。 反 向 复制 一 幅 有 向 图 所 需 的 空间 与 VHB 成 正比 。 
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4.2.5.4 ”再 谈 可 达 性 


根据 CC 类 我 们 可 以 知道 ， 在 无 向 图 中 如 @) 
果 两 个 顶点 v 和 w 是 连通 的 ， 那 么 就 既 存 在 一 (OR 
条 从 v 到 w 的 路 径 也 存在 一 条 从 Ww 到 v 的 路 径 。 pe 7 
根据 KosarajuCC 类 可 知 ， 在 有 向 图 中 如 果 两 及 Dag 
个 顶点 v 和 w 是 强 连 通 的 ， 那 么 也 既 存在 一 条 SN 
从 v 到 w 的 路 径 也 存在 ( 男 ) 一 条 从 w 到 v 的 
路 径 。 但 对 于 一 对 非 强 连 通 的 顶点 呢 ?7 也 许 存 0 12345678 910112 
在 一 条 从 v 到 w 的 路 径 ， 也 许 存在 一 条 从 w 到 . Ue 
v 的 路 径 ， 也 许 两 条 都 不 存在 ， 但 不 可 能 两 条 21T TT 有 ETT 原始 有 向 图 。 
者 存在 。 "J 
顶点 对 的 可 达 性 。 给 定 一 幅 有 向 图 ， 回 答 |- 自 环 (灰色 ) | 
“是 否 存 在 一 条 从 一 个 给 定 的 顶点 V 到 另 一 个 6 |T T T T T 车 
给 定 的 顶点 W 的 路 径 ? ”等 类 似 问 题 。 Ca ea 
对 于 无 向 图 , 这 个 问题 等 价 于 连通 性 问题 | 
对 于 有 向 图 , 它 和 强 连通 性 的 问题 有 很 大 区 别 。 10T TTTIT 和 
CC 实现 需要 线性 级 别 的 预 处 理 时 间 才 能 支持 RS ee 


常数 时 间 的 查询 操作 。 我 们 能 够 在 有 向 
应 实现 中 达到 这 样 的 性 能 吗 ? 这 个 看 似 


问题 困扰 了 专家 数 十 年 。 为 了 更 好 地 理解 这 个 


图 的 相 
简单 的 


问题 ， 我 们 来 看 看 图 4.2.18。 它 展示 了 下 面 这 


个 基本 的 概念 。 


图 4.2.18 ”传递 闭 包 〈 另 见 彩 插 ) 


定义 。 有 向 图 G 的 传递 闭 包 是 由 相同 的 一 组 顶点 组 成 的 另 一 幅 有 向 图 ， 在 传递 闭 包 中 存在 一 条 


从 v 指向 Ww 的 边 当 上 且 仅 当 在 G 中 wW 是 


从 V 可 达 的 。 


根据 约定 ， 每 个 顶点 对 于 自己 都 是 可 达 的 ， 因 此 传递 闭 包 会 含有 VV 个 自 环 。 示 例 有 向 图 只 有 
的 169 条 有 向 边 中 的 102 条 。 一 般 来 说 ,一 幅 有 向 图 的 传递 
闭 包 中 所 含 的 边 都 比 原 图 中 多 得 多 ， 一 幅 稀 朴 图 的 传递 闭 包 却 是 一 幅 稠密 图 也 是 很 常见 的 。 例 如 ， 
含有 VV 个 顶点 和 信条 边 的 有 向 环 的 传递 闭 包 是 一 幅 含 有 矿 条 边 的 有 向 完全 图 。 因 为 传递 闭 包 一 般 
都 很 稠密 ， 我 们 通常 都 将 它们 表示 为 一 个 布尔 值 和 矩阵， 其 中 v 行 w 列 的 值 为 true 当 且 仅 当 w 是 从 
v 可 达 的 。 与 其 明确 计算 一 幅 有 向 图 的 传递 闭 包 ， 不 如 使 用 深度 优先 搜索 来 实现 表 4.2.9 中 的 API。 


22 条 有 向 边 ,但 它 的 传递 闭 包 含有 可 能 


表 4.2.9 顶点 对 可 达 性 的 API 


public class TransitiveClosure 


TransitiveClosure(Digraph G) 


boolean reachable(int v, 


int w) 


预 处 理 的 构造 函数 
w 是 从 v 可 达 的 吗 


下 页 框 注 中 的 代码 使 用 DirectedDFS ( 请 见 算法 4.4) 简单 明了 地 实现 了 它 。 无 论 对 于 稀 政 


还 是 稠密 的 图 ， 它 都 是 理想 解决 方案 ， 


但 它 不 适用 于 在 实际 应 


中 可 能 遇 到 的 大 型 有 向 图 ， 因 为 


public class TransitiveClosure 
{ 
private DirectedDFS[] all; 
TransitiveClosure(Digraph ©) 
{ 
all = new DirectedDFS[G.VO]; 
ormGme v= Ov GVO ver 
all[v] = new DirectedDFS(G, Vv); 


boolean reachable(int v, int w) 
{ return all[vj.marked(w); } 


顶点 对 的 可 达 性 
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构造 函数 所 需 的 空间 和 天 成 正比 ， 

所 需 的 时 间 和 WV+E) 成 正比 : 共 
有 人 了 个 DirectedDFS 对 象 ， 每 个 所 
需 的 空间 都 与 于 成 正比 (它们 都 含 
有 大 小 为 的 marked[] 数组 并 会 检 
查 E 条 边 来 计算 标记 )。 本 质 上 ， 

TransitiveClosure 通过 计算 G 的 传 
递 闭 包 来 支持 常数 时 间 的 查询 一 一 传 
递 闭 包 和 矩阵 中 的 第 v 行 就 是 Transi- 
tiveClosure 类 中 的 DirectedDFS[] 
数组 的 第 v 个 元 素 的 marked[] 数组 。 

我 们 能 够 大 幅度 减少 预 处 理 所 需 的 时 


间 和 空间 同时 又 保证 常数 时 间 的 查询 吗 ? 用 远 小 于 平方 级 别 的 空间 支持 常数 级 别 的 查询 的 一 般 解 决 
方案 仍然 是 一 个 有 待 解决 的 研究 问题 ， 并 且 有 重要 的 实际 意义 : 例如 ， 除 非 这 个 问题 得 到 解决 ， 对 
于 像 代表 互联 网 这 样 的 巨型 有 向 图 ， 否 则 无 法 有 效 解 决 其 中 的 项 点 对 可 达 性 问题 。 


4.2.6 ”总结 

在 本 节 中 ， 我 们 介绍 了 有 向 边 和 有 向 图 并 强调 了 有 向 
系 ， 涵盖 了 以 下 几 个 方面 : 
口 有 向 图 的 术语 ; 


图 处 理 算法 和 无 向 图 处 理 中 相应 算法 的 关 


口 有 向 图 的 表示 和 算法 在 本 质 上 和 无 向 图 是 相同 的 ， 


口 有 向 图 的 可 达 性 、 路 径 和 强 连通 性 。 


但 部 分 有 向 图 问题 更 加 复杂 ; 


口 有 向 环 、 有 向 无 环 图 、 拓 扑 排序 和 优先 级 限制 下 的 调度 问题 ; 


表 4.2.10 总 结 了 我 们 已 经 学 过 的 各 种 有 向 图 算法 的 实现 ( 只 有 一 个 算法 不 基于 深度 优先 搜索 )。 


这 些 问 题 的 描述 都 很 简单 ， 但 它们 的 解决 方法 有 的 仅仅 简单 改造 了 无 向 图 中 的 相应 问题 的 处 理 算 


法 , 有 的 却 非常 巧妙 。 这 些 算 法 是 4.4 节 更 加 复杂 的 算法 的 基础 , 在 4.4 节 我 们 将 学 习 加 权 有 向 图 。 


表 4.2.10 ”本 节 中 得 到 解决 的 有 向 图 处 理 问题 


问 题 解决 方法 参 阅 
单 点 和 多 点 的 可 达 性 DirectedDFS 算法 4.4 
单 点 有 向 路 径 DepthFirstDirectedPaths 4.2.3.2 
单 点 最 短 有 向 路 径 BreadthFirstDirectedPaths 4.2.3.2 
有 向 环 检测 DirectedCycle 4.2.4.2 框 注 “寻找 有 问 环 ” 
深度 优先 的 顶点 排序 DepthFirstOrder 4.2.4.2 框 注 “ 有 向 图 中 基于 深度 优先 搜索 


优先 级 限制 下 的 调度 问题 Topological 


拓扑 排序 Topological 
强 连 通 性 KosarajuSCC 
顶点 对 的 可 达 性 TransitiveClosure 


的 顶点 排序 ” 
算法 4.5 
算法 4.5 
算法 4.6 
4.2.5.4 节 
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386 戎 第 4 章 图 
图 答疑 
问 ” 自 环 是 一 个 环 吗 ? 
595| 答 是 的 , 但 没有 自 环 的 顶点 对 于 自己 也 是 可 达 的 。 
图 练 
4.2.1 一 幅 含 有 二 个 顶点 且 没 有 平行 边 的 有 向 图 中 最 多 可 能 含有 多 少 条 边 ? 一 幅 含 有 VV 个 顶点 且 没 有 孤 
立 顶 点 的 有 向 图 中 最 少 需要 多 少 条 边 ? 
4.2.2 按照 正文 中 示意 图 的 样式 〈 请 见 图 4.1.9 ) 画 出 Digraph 的 tinyDGex2. txt 
构造 函数 在 处 理 图 4.2.19 的 tinyDGex2.txt 时 构造 的 邻 J 
接 表 。 8 4 各 
4.2.3 为 Digraph 添加 一 个 构造 函数 ， 它 接受 一 幅 有 向 图 6 然后 0 @ 
创建 并 初始 化 这 幅 图 的 一 个 副本 。G 的 用 例 的 对 它 作出 的 四 
任何 改动 都 不 应 该 影响 到 它 的 副本 。 10 3 G0 
4.2.4 为 Digraph 添加 一 个 方法 hasEdgeC) ， 它 接受 两 个 整 型 参 人 
数 v 和 w。 如 果 图 含有 边 v 一 w， 方 法 返回 true， 和 否则 返 4 DO S 
回 false。 6 2 
4.2.5 修改 Digraph， 不 允许 存在 平行 边 和 自 环 。 5 
4.2.6 为 Digraph 编写 一 个 测试 用 例 。 2 © 
4.2.7 顶点 的 入 度 为 指向 该 项 点 的 边 的 总 数 。 顶 点 的 出 度 为 由 该 41 
顶点 指出 的 边 的 总 数 。 从 出 度 为 0 的 顶点 是 不 可 能 达到 任 图 4.2.19 
何 顶 点 的 ， 这 种 顶点 叫做 终点 ;入 度 为 0 的 顶点 是 不 可 能 
从 任何 顶点 到 达 的 ， 所 以 叫做 起 点 。 一 幅 允 许 出 现 自 环 且 每 个 顶点 的 出 度 均 为 1 的 有 向 图 叫做 映 
射 ( 从 0 到 天 1 之 间 的 整数 到 它们 自身 的 函数 ) 。 编 写 一 段 程序 Degreesjava， 实 现下 面 的 APL， 
如 表 4.2.11 所 示 。 
表 4.2.11 
public class Degrees 
Degrees(Digraph 0) 构造 函数 
int indegree(int v) v 的 和 人 度 
int outdegree(int v) v 的 出 度 
Iterable<Integer> sources() 所 有 起 点 的 集合 
Iterable<Integer> sinks(Q) 所 有 终点 的 集合 
596 boolean isMap(O) G 是 一 幅 映 射 吗 
4.2.8 画 出 所 有 含有 2、3、4 和 5 个 顶点 的 非 同 构 有 向 无 环 图 。 ( 参考 练习 4.1.28 ) 
4.2.9 编写 一 个 方法 ， 检 查 一 幅 有 向 无 环 图 的 顶点 的 给 定 排列 是 否 就 是 该 图 顶点 的 拓扑 排序 。 
4.2.10 给 定 一 幅 有 向 无 环 图 ， 是 否 存在 一 种 无 法 用 基于 深度 优先 搜索 算法 得 到 的 顶点 的 拓扑 排序 ? 项 


点 的 相 邻 关系 不 限 。 训 


E 明 你 的 结论 。 


4.2.11 
4.2.12 
4.2.13 


4.2.14 
4.2.15 
4.2.16 
4.2.17 
4.2.18 
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描述 一 组 稀 玖 有 向 图 ， 其 含有 的 有 向 环 的 个 数 随 着 顶点 增加 而 呈 指 数 级 增长 。 
一 幅 含 有 了 VV 个 顶点 和 天 1 条 边 日 为 一 条 简单 路 径 的 有 向 图 的 传递 闭 包 中 含有 多 少 条 边 ? 
给 出 这 幅 含 有 10 个 顶点 和 以 下 边 的 有 向 图 的 传递 闭 包 : 
3 一 7 1 一 47 一 8 0 一 5 5 一 2 3 一 8 2 一 9 0 一 6 4 一 9 2 一 6 6 一 4 
证 明 G 和 G 中 的 强 连通 分 量 是 相同 的 。 
一 幅 有 向 无 环 图 的 强 连 通 分 量 是 哪些 ? 
用 Kosaraju 算法 处 理 一 幅 有 向 无 环 图 的 结果 是 什么 ? 


真 假 判 断 : 一 幅 有 向 图 的 反 向 图 的 顶点 的 逆 后 序 排 列 和 该 有 向 图 的 顶点 的 后 序 排列 相同 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 含有 斑 个 顶点 和 五 条 边 的 Digraph 的 内 存 使 用 情况 。 


图 提高 是 


4.2.19 


4.2.20 


4.2.21 


4.2.22 


4.2.23 


4.2.24 


4.2.25 


4.2.26 


拓扑 排序 与 广度 优先 搜索 。 解 释 为 何如 下 算法 无 法 得 到 一 组 拓扑 排序 : 运行 广度 优先 搜索 并 按 
照 所 有 顶点 和 起 点 的 距离 标记 它们 。 

有 向 欧 拉 环 。 欧 拉 环 是 一 条 每 条 边 恰 好 出 现 一 次 的 有 向 环 。 编 写 一 个 程序 Euler 来 找 出 有 癌 图 
中 的 欧 拉 环 或 者 说 明 它 不 存在 。 提 示 : 当 且 仅 当 有 向 图 G 是 连通 的 且 每 个 顶点 的 出 度 和 和 人 度 相 
同时 G 含有 一 条 有 向 欧 拉 环 。 

有 向 无 环 图 中 的 LCA。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 的 LCA (Lowest 
Common Ancestor， 最 近 共 同 祖先 ) 。 LCA 的 计算 在 实现 编程 语言 的 多 重 继承 、 分 析 家 谱 数据 ( 找 
出 家 族 中 近亲 繁衍 的 程度 ) 和 其 他 一 些 应 用 中 很 有 用 。 提 示 : 将 有 向 无 环 图 中 的 顶点 v 的 高 度 
定义 为 从 根 结 点 到 v 的 最 长 路 径 。 在 所 有 v 和 w 的 共同 祖先 中 ， 高 度 最 大 者 就 是 v 和 w 的 最 近 
共同 祖先 。 

最 短 先 导 路 径 。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 之 间 的 最 短 先导 路 径 。 设 v 
和 w 的 一 个 共同 的 祖先 顶点 为 X， 先 导 路 径 为 v 到 x 的 最 短路 径 和 w 到 x 的 最 短路 径 。v 和 w 之 
间 的 最 短 先 导 路 径 是 所 有 先导 路 径 中 的 最 短 者 。 热 身 : 构造 一 幅 有 向 无 环 图 ， 使 得 最 短 先导 路 
径 到 达 的 祖先 顶点 x 不 是 v 和 w 的 最 近 共 同 祖先 。 提示 : 进行 两 次 广度 优先 搜索 , 一 次 从 v 开始 ， 
一 次 从 w 开 始 。 

强 连 通 分 量 。 设 计 一 种 线性 时 间 的 算法 来 计算 给 定 顶 点 v 所 在 的 强 连通 分 量 。 在 这 个 算法 的 基 
础 上 设计 一 种 平方 时 间 的 算法 来 计算 有 向 图 的 所 有 强 连 通 分 量 。 

有 向 无 环 图 中 的 汉密尔顿 路 径 。 设 计 一 种 线性 时 间 的 算法 来 判定 给 定 的 有 向 无 环 图 中 是 否 存在 
一 条 能 够 正好 只 访问 每 个 顶点 一 次 的 有 向 路 径 。 
答案 : 计算 给 定 图 的 拓扑 排序 并 顺序 检查 拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 是 否 存在 一 条 边 。 
唯一 的 拓扑 排序 。 设 计 一 个 算法 来 判定 一 幅 有 向 图 的 拓扑 排序 是 否 是 唯一 的 。 提 示 : 当 且 仅 当 
拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 都 存在 一 条 有 向 边 〈 即 有 向 图 含有 一 条 汉密尔顿 路 径 ) 时 它 
的 拓扑 排序 才 是 唯一 的 。 如 果 一 幅 有 向 图 的 拓扑 排序 不 唯一 ， 另 一 种 拓扑 排序 可 以 由 交换 拓扑 
排序 中 的 某 一 对 相 邻 的 顶点 得 到 。 
2- 可 满足 性 。 给 定 一 个 由 M 个 子 句 和 个 变量 的 组 成 的 以 合 取 范 式 形式 给 出 的 布尔 逻辑 命题 ， 
每 个 子 句 都 正好 含有 两 个 变量 ， 找 到 一 组 使 布尔 表达 式 为 真 的 变量 赋值 ( 如 果 存 在 ) 。 提 示 : 
构造 一 幅 含 有 2N 个 顶点 的 蕴涵 有 向 图 (implication graph ) ( 每 个 变量 和 它 的 反 都 各 有 一 个 顶点 )。 
对 于 每 个 子 句 x+ty， 添 加 一 条 从 y' 到 x 的 边 和 一 条 从 x' 到 y 的 边 。 要 满足 子 句 xty， 必 有 (i) 
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599 


600 


4.2.27 


4.2.28 
4.2.29 


4.2.30 


4.2.31 


4.2.38 


如 果 y 是 假 那 么 x 为 真 ， 或 者 Cii) 如 果 x 是 假 那 么 y 为 真 。 说明: 当 且 仅 当 没有 任何 顶点 x 和 
它 的 反 x' 存 在 于 同一 个 强 连 通 分 量 中 时 这 个 表达 式 才能 被 满足 。 另 外 ， 核 心 有 向 无 环 图 (每 个 


强 连通 分 量 都 是 一 个 顶点 ) 的 拓扑 排序 也 能 够 产生 一 组 可 以 满足 该 表达 式 的 变量 赋值 。 


有 向 图 的 枚 举 。 证 明 所 有 不 同 的 含有 个 顶点 且 不 含 平行 边 的 有 向 
个 顶点 和 E 条 边 的 不 同 有 向 图 有 多 少 个 ? ) 假 设 宇宙 中 每 个 电子 在 一 纳 秒 内 色 
宇宙 中 的 电子 总 数 不 超过 10™ 个 ， 字 宙 的 寿命 小 于 10” 年。 对 于 所 有 含有 20 个 顶点 的 不 同 有 向 
图 ,计算机 最 多 能 够 检查 它们 的 百 分 之 儿 ? 

有 向 无 环 图 的 枚 举 。 给 出 一 个 公式 ,计算 含有 人 个 顶点 和 条 边 的 所 有 有 向 无 环 图 的 数量 。 
算术 表达 式 。 编 写 一 个 类 来 计算 由 有 向 无 环 图 表示 的 算术 表达 式 。 使 用 


图 的 总 数 为 2” 个 。 (含有 
够 检查 一 幅 有 向 图 ， 


个 由 顶点 索引 的 数组 


来 保存 每 个 顶点 所 对 应 的 值 。 假 设 叶子 结 点 中 的 值 是 常数 。 描 述 一 组 算术 表达 式 ， 使 得 它 所 对 
应 的 表达 式 树 ( expression tree ) 的 大 小 是 相应 的 有 向 无 环 图 的 大 小 的 指数 级 别 。 ( 因此 程序 处 
理 有 向 无 环 图 所 需 的 时 间 将 和 处 理 表达 式 树 所 需 的 时 间 的 对 数 成 正比 。 ) 
基于 队列 的 拓扑 排 序 。 实 现 一 种 拓扑 排序 ， 使 用 由 顶点 索引 的 数组 来 保存 每 个 顶点 的 入 度 。 遍 历 
一 这 所 有 边 并 使 用 练习 4.2.7 给 出 的 Degrees 类 来 初始 化 数组 以 及 一 条 含有 所 有 起 点 的 队列 。 然 


后 ， 重 复 以 下 操作 直到 起 点 队列 为 空 : 
口 从 队列 中 删 去 一 个 起 点 并 将 其 标记 ; 


口 遍历 由 被 删除 顶点 指出 的 所 有 边 ， 将 所 有 被 指向 的 顶点 的 人 度 减 一 ; 
口 如 果 顶 点 的 入 度 变 为 0， 将 它 插入 起 点 队列 。 


有 向 欧 几 里 得 图 。 修改 你 为 4.1.36 给 出 的 解答 ， 为 平面 图 设计 一 份 API 名 为 Euclidean- 


Digraph， 这 样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 


验 题 


几率 生成 含有 个 顶点 各 条 边 的 所 有 可 
随机 稀疏 有 向 图 。 将 你 为 练习 4.1.40 给 出 


随机 欧 几 里 得 图 。 将 你 为 练习 41.41 给 出 的 
Digraph， 随 机 指定 每 条 边 的 方向 。 


随机 指定 每 条 边 的 方向 。 


的 一 组 玉 和 五 的 值 生成 随机 的 稀 芍 有 向 网 ， 


随机 网 格 图 。 将 你 为 练习 4.1.42 给 出 的 解答 修改 为 EuclideanDigraph 的 


能 的 简单 有 向 图 。 


随机 有 向 图 。 编 写 一 个 程序 ErdosRenyiDigraph, 从 命令 行 接受 整数 V 和 ,随机 生成 E 对 0 到 地 -1 
之 间 的 整数 来 构造 一 幅 有 向 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 
随机 简单 有 向 图 。 编 写 一 个 程序 RandomSimpleDigraph， 从 命令 行 接受 整数 广 和 EE， 用 均等 的 


的 解答 修改 为 RandomSparseDigraph， 根 据 精 心 选择 
使 得 我 们 可 以 用 它 进行 有 意义 的 经 验 性 测试 。 
解答 修改 为 EuclideanDigraph 的 用 


例 RandomEuc1idean- 


] 例 RandomGridDigraph， 


真实 世界 中 的 有 向 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 图 一 一 可 以 是 某 个 在 线 商 业 系统 的 交易 图 ， 


或 是 由 网 页 和 链接 得 到 的 有 向 图 。 编 写 一 段 程序 RandomRea1Digraph， 从 这 些 顶 点 构成 的 子 图 


中 随机 选取 7 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 有 向 边 来 构造 一 幅 图 。 
真实 世界 中 的 有 向 无 环 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 无 环 图 


可 以 是 大 型 软件 系统 中 的 


类 依赖 关系 ， 或 是 大 型 文件 系统 中 的 目录 结构 。 编 写 一 段 程序 RandomRea1lDAG， 从 这 幅 有 向 无 


环 图 中 随机 选取 VV 个 顶点 , 然后 再 从 这 些 硕 点 构成 的 子 


图 中 随机 选取 五 条 有 向 边 来 构造 一 幅 图 。 


测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 
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段 程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模 
型 进行 实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结 果 以 及 由 
此 得 出 的 任何 结论 。 
4.2.39 可 达 性 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 从 一 个 随机 选 定 的 顶点 可 以 到 达 的 
顶点 数量 的 平均 值 。 
4.2.40 深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 Depth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 
4.2.41 广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判 断 Breadth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找 到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 


长 度 。 
4.2.42 ” 强 连 通 分 量 。 运 行 实验 随机 生成 大 量 有 向 图 并 画 出 柱状 图 ， 根 据 经 验 判 断 各 种 类 型 的 随机 有 向 
图 中 强 连通 分 量 的 数量 的 分 布 情况 。 602 
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4.3 ”最 小 生成 树 


加 权 图 是 一 种 为 每 条 边关 联 一 个 权 值 或 是 成 本 的 图 模型 。 这 种 图 能 够 自然 地 表示 许多 应 用 。 在 
一 幅 航 空 图 中 ， 边 表示 航线 ， 权 值 则 可 以 表示 距离 或 是 费用 。 在 一 幅 电 路 图 中 ， 边 表示 导线 ， 权 值 


tinyEWG. txt 


则 可 能 表示 导线 的 长 度 即 成 本 ,或 是 信号 通过 这 条 线 


a 路 所 需 的 时 间 。 在 这 些 情形 中 ， 最 令 人 感 兴趣 的 自然 
站 最 直 十 成 网 是 将 成 本 最 小 化 。 在 本 节 中 ， 我 们 将 学 习 加 权 无 向 图 
1 8 的 边 (黑色 ) 模型 并 用 算法 回答 下 面 这 个 问题 。 

0 7 0.16 / OA 最 小 生成 树 。 给 定 一 幅 加 权 无 向 图 ， 拷 到 它 的 一 

9 A 棵 最 小 生成 树 。 

23 017 

17 0.19 (0) 

02 ‘0.20 (4) @ 定义 。 图 的 生成 树 是 它 的 一 棵 含有 其 所 有 顶点 的 
无 环 连通 子 图 。 一 幅 加 权 图 的 最 小 生成 树 ( MST ) 

6 非 最 小 生成 是 它 的 一 棵 权 值 ( 树 中 所 有 边 的 权 信 之 和 ) 最 小 

0 


图 4.3.1 一 幅 加 权 无 向 图 和 它 的 最 小 生成 树 


在 本 节 中 ， 我 们 会 学 习 计算 最 小 生成 树 的 两 种 经 
典 算法 : Prim 算法 和 Kruskal 算法 ,这 些 算法 理解 容易 ， 


实现 简单 。 它 们 是 本 书 中 最 古老 和 最 知名 的 算法 之 一 ， 但 它们 也 根据 现代 数据 结构 得 到 了 改进 。 


为 最 小 生成 树 的 重要 应 用 领域 太 多 ， 对 解决 这 个 问题 的 算法 的 研究 至 少 从 20 世纪 20 年 代 在 设计 电 


力 分 配 网 络 时 就 开始 


了 。 现在 , 最 小 生成 树 算法 在 设计 各 种 类 型 的 网 络 ( 通信 、 电 子 、 水 利 、 计 算 机 、 


公路 、 铁 路 、 航 空 等 ) 以 及 自然 界 中 的 生物 、 化 学 和 物理 网 络 等 各 个 领域 的 研究 中 都 起 到 了 重要 的 


作用 ， 请 见 表 4.3.1。 


表 4.3.1 最 小 生成 树 的 典型 应 用 


应 用 领域 顶 点 边 
路 元 器 件 导线 
航空 机 场 航线 
e093 电力 分 配 电站 输电 线 
604 图 像 分 析 面部 容貌 相似 关系 


一 些 约定 


在 计算 最 小 生成 树 的 过 程 中 可 能 会 出 现 各 种 特殊 情况 。 虽 然 它们 大 多 数 都 很 容易 处 理 ， 但 为 了 


行文 的 流畅 ， 我 们 约定 如 下 。 


口 只 考虑 连通 图 。 我 们 对 生成 树 的 定义 意味 着 最 小 生成 树 只 可 能 存在 于 连通 图 中 ， 请 见 图 
4.3.2a。 从 另 一 个 角度 来 说 ， 请 回想 4.1 节 所 述 的 树 的 基本 性 质 ， 我 们 要 找 的 就 是 一 个 由 六-1 
条 边 组 成 的 集合 , 它们 既 连 通 了 图 中 的 所 有 顶点 而 权 值 之 和 又 最 小 。 如 果 一 幅 图 是 非 连 通 的 ， 
我 们 只 能 使 用 这 个 算法 来 计算 它 的 所 有 连通 分 量 的 最 小 生成 树 ， 合 并 在 一 起 称 其 为 最 小 生成 
森林 ( 请 见 练习 4.3.22 ) 。 

口 边 的 权重 不 一 定 表示 距离 。 有 时 你 对 几何 学 的 直觉 能 够 帮助 你 理解 算法 ， 因 此 在 示例 中 ， 顶 点 


都 表示 是 平 卫 


i 上 的 点 ， 而 权重 都 表示 是 两 点 之 间 的 距离 ， 比 如 图 4.3.1。 但 需要 注意 的 是 , 权重 
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也 可 能 表示 时 间 、 费 用 或 是 其 他 完全 不 同 的 变量 ， (9) 大通 的 无 向 图 中 不 存在 最 生成 凤 
而 且 也 完全 不 一 定 会 和 距离 成 正比 ,请 见 图 4.3.2b。 @ 
口 边 的 权重 可 能 是 0 或 者 负数 。 如 果 边 的 权重 都 是 © 必 
正 的 ， 将 最 小 生成 树 定义 为 连接 所 有 顶点 且 总 权 上 2 3 0.35 
重 最 小 的 子 图 就 足够 了 ， 这 样 的 一 幅 子 图 必然 是 os 16 0.10 
一 棵 生成 树 。 定 义 中 的 生成 树 条 件 说 明 图 也 可 以 i 
含有 权重 为 0 或 是 负数 的 边 ， 请 见 图 4.3.2c。 量 的 最 小 生成 树 
口 所 有 边 的 权重 都 各 不 相同 。 如 果 不 同 边 的 权重 可 
以 相同 ， 最 小 生成 树 就 不 一 定 唯 一 了 ( 请 见 练习 ” 中) 权重 不 定 和 距离 成 正比 
4.3.2 ) 。 存 在 多 棵 最 小 生成 树 的 可 能 性 会 使 部 分 4 6 0.62 
算法 的 证 日 因此 我 们 在 表示 中 排 15 0.02 
除了 这 种 可 能 性 。 事 实 上 这 个 假设 并 没有 限制 算 (9 一- 人 
法 的 适用 范围 ， 因为 大 他 从 长 必 科 也 下 由 关 关 下 @ 0 2 0.22 
等 值 权 重 的 情况 ， 请 见 图 43.2d 。 Y 0 
总 之 ,在 学 习 最 小 生成 树 相关 算法 的 过 程 中 我 们 假设 0 Doly 
任务 的 目标 是 在 一 幅 加 权 ( 但 权 值 各 不 相同 的 ) 连通 无 向 ) 权重 可 能 是 0 或 者 负数 
图 中 找到 它 的 最 小 生成 树 。 5 
(3) 15 0.02 
4.3.1 原理 (pg) ot 0 
首先 ， 我 们 回顾 一 下 4.1 节 中 给 出 的 树 的 两 个 最 重要 © et 
的 性 质 ， 另 见 图 4.3.3: 了 0 
口 用 一 条 边 连接 树 中 的 任意 两 个 顶点 都 会 产生 一 个 站 
新 的 环 ; Re 不 唯一 
口 We 2 和 
两 条 性 质 是 证 明 最 小 生成 树 的 另 一 条 基本 性 质 的 2 4 1.00 
ee 而 由 这 条 基本 性 质 就 能 够 得 到 本 节 中 的 最 小 生成 树 Sr 了 
算法 。 (2 ) 1 2 1.00 
4.3.1.1 ， 切 分 定理 ee 
我 们 称 之 为 切 分 定理 的 这 条 性 质 将 会 把 加 权 图 中 的 @@ 3 4 0.50 
所 有 顶点 分 为 两 个 集合 、 检 查 横 跨 两 个 集合 的 所 有 边 并 识 图 43 2 计算 最 小 上 成风 可 能 | 
别 哪 条 边 应 属于 图 的 最 小 生成 树 。 的 各 种 特殊 情 ; 


定义 。 图 的 
两 个 属于 不 同 集合 的 顶点 的 边 。 


， 我 们 通过 指定 一 个 顶点 集 


集 并 隐 式 地 认为 它 的 补 引 


一 条 档 


我 们 将 切 分 中 一 个 集 


合 的 顶点 都 画 为 了 灰色 ， 


er ee 个 顶点 和 不 在 该 集合 中 的 男 一 个 顶点 的 一 
另 一 个 集合 的 顶点 则 为 


一 种 切 分 是 将 图 的 所 有 顶点 分 为 两 个 非 空 且 不 重 受 的 两 个 集合 。 横 切 边 是 一 条 连接 


为 男 一 个 顶点 集 来 指定 一 个 切 分。 这 样 ， 
条 边 。 如 图 4.3.4 所 示 ， 


站 旬 。 


添 中 一 条 边 会 


a 创建 一 个 环 


将 灰色 和 白色 顶点 区 别 
开 来 的 横 切 边 为 红色 


删除 一 条 边 会 权重 最 小 的 横 切 边 肯 
将 树 一 分 为 二 定 属于 最 小 生成 树 


图 43.3 树 的 基本 性 质 图 43.4 切 分 定理 ( 另 见 彩 插 ) ”图 4.3.5 产生 了 两 条 属于 最 小 生成 
树 的 模 切 边 的 一 种 切 分 


命题 J〈 切 分 定理 ) 。 在 一 幅 加 权 图 中 ， 给 定 任意 的 切 分 ， 它 的 横 切 边 中 的 权重 最 小 者 必然 属 
于 图 的 最 小 生成 树 。 


证 明 。 今 e 为 权重 最 小 的 横 切 边 ， 了 为 图 的 最 小 生成 树 。 我 们 采用 反 证 法 : 假设 了 不 包含 e。 那 
么 如 果 将 e 加 入 T， 得 到 的 图 必然 售 有 一 条 经 过 e 的 环 ， 且 这 个 环 至 少食 有 另 一 条 横 切 边 一 
设 为 1, /的 权重 必然 大 于 e (因为 e 的 权重 是 最 小 的 且 图 中 所 有 边 的 权重 均 不 同 ) 。 那 么 我 们 
删 掉 了 而 保留 e 就 可 以 得 到 一 棵 权重 更 小 的 生成 树 。 这 和 我 们 的 假设 了 矛盾 。 


在 假设 所 有 的 边 的 权重 均 不 相同 的 前 提 下 ， 每 幅 连通 图 都 只 有 一 棵 唯一 的 最 小 生成 树 ( 请 见 
练习 4.3.3 ) ， 切 分 定理 也 表明 了 对 于 每 一 种 切 分 ， 权 重 最 小 的 横 切 边 必 然 属于 最 小 生成 树 。 

图 4.3.4 是 切 分 定理 的 示意 图 。 注 意 ， 权 重 最 小 的 横 切 边 并 不 一 定 是 所 有 横 切 边 中 唯一 属于 图 
的 最 小 生成 树 的 边 。 实 际 上 , 许多 切 分 都 会 产生 若干 条 属于 最 小 生成 树 的 横 切 边 ， 如 图 4.3.5 所 示 。 
4.3.1.2 ”贪心 算法 

切 分 定理 是 解决 最 小 生成 树 问 题 的 所 有 算法 的 基础 。 更 确切 的 说 ， 这 些 算法 都 是 一 种 贪心 算法 
的 特殊 情况 : 使 用 切 分 定理 找到 最 小 生成 树 的 一 条 边 ， 不 断 重复 直到 找到 最 小 生成 树 的 所 有 边 。 这 
些 算 法 相互 之 间 的 不 同 之 处 在 于 保存 切 分 和 判定 权重 最 小 的 横 切 边 的 方式 ， 但 它们 都 是 以 下 性 质 的 
特殊 情况 。 


命题 K《〈 最 小 生成 树 的 贪心 算法 ) 。 下 面 这 种 方法 会 将 含有 下 个 顶点 的 任意 加 权 连 通 图 中 属于 最 
小 生成 树 的 边 标 记 为 黑色 : 初始 状态 下 所 有 边 均 为 灰色 ， 找 到 一 种 切 分 ， 它 产生 的 横 切 边 均 不 为 
黑色 。 将 它 权 重 最 小 的 模 切 边 标 记 为 黑色 。 反 复 ， 直 到 标记 了 大 1 条 黑色 边 为 止 。 


证 明 。 为 了 简单 ， 我 们 假设 所 有 边 的 权重 均 不 相同 ， 尽 管 没 有 这 个 假设 该 命题 同样 成 立 ( 请 见 
练习 4.3.5 ) 。 根 据 切 分 定理 ， 所 有 被 标记 为 黑色 的 边 均 属于 最 小 生成 树 。 如 果 黑 色 边 的 数量 小 
于 太 1， 必然 还 存在 不 会 产生 黑色 横 切 边 的 切 分 ( 因为 我 们 假设 图 是 连通 的 )。 只 要 找到 了 六 1 
条 黑色 的 边 ， 这 些 边 所 组 成 的 就 是 一 棵 最 小 生成 树 。 


4.3.6 


CO 


O 切 分 生成 的 权 


贪心 最 小 生成 树 算法 
( 另 见 彩 插 ) 


4.3 最 小 生成 树 - 


图 4.3.6 所 示 的 是 这 个 贪心 算法 运行 的 典型 轨迹 。 每 一 幅 


图 表现 的 都 是 一 次 切 分 ， 其 中 算法 识别 了 一 条 权重 最 小 的 横 切 


边 (红色 加 粗 ) 并 将 它 加 入 最 小 生成 树 之 中 。 
4.3.2 ”加 权 无 向 图 的 数据 类 型 


加 权 无 向 图 应 该 如 何 表 示 ? 也 许 最 简单 的 方法 就 是 扩展 
4.1 节 中 对 无 向 图 的 表示 方法 : 在 邻接 矩阵 的 表示 中 ， 


边 的 权重 代替 布尔 值 来 作为 矩阵 的 元 素 ; 在 邻接 表 的 表示 中 


可 以 用 


可 以 在 链表 的 结 点 中 增加 一 个 权重 域 。 ( 和 以 前 一 样 ， 我 们 把 


重点 放 在 稀 疏 图 


|- ， 将 邻接 矩阵 的 表示 方法 留 作 练习 。 ) 这 种 


经 典 的 方法 很 有 吸引 力 ， 但 我 们 会 使 用 男 外 一 种 并 不 太 复杂 的 


表示 方式 。 它 需要 一 个 更 加 通 | 


的 API 来 处 理 Edge 对 象 ， 能 


够 使 程序 适用 于 更 加 常见 的 场景 ， 请 见 表 4.3.2。 


public class 


表 4.3.2 加 权 边 的 API 


Edge implements Comparable<Edge> 


EdgeCint vV, int w, ] 于 初始 化 的 构造 
double weight) 函数 

weight() 边 的 权重 
either() 边 两 端的 顶点 之 一 


other(Cint v) 


对 象 的 字符 串 表 示 


访问 边 的 端点 的 either() 和 other 0) 方法 乍 一 看 会 有 些 


奇怪 一 一 在 看 到 调 


它们 的 代码 时 就 会 清楚 了 为 什么 会 有 这 样 


的 需要 了 。Edge 的 实现 请 见 框 注 “ 带 权重 的 边 的 数据 类 型 ”， 
它 是 EdgeweightedGraph 的 API 的 基础 。 加 权 无 向 图 的 实现 
很 自然 地 使 用 了 Edge 对 象 ， 请 见 表 4.3.3。 


public class 


int 

int 

void 
Iterable<Edge> 
Iterable<Edge> 


表 4.3.3 加权 无 向 图 的 API 


EdgeweightedGraph 
EdgeweightedGraphCint V) 创建 一 幅 含 有 V 个 顶 
点 的 空 图 

EdgeweightedGraph(In in) ”从 输入 流 中 读 取 图 
vO 图 的 顶点 
EQ 图 的 边 数 
addEdge(Edge e) 名 图 中 添加 一 条 边 e 
adjCint v) 和 v 相关 联 的 所 有 边 
edgesQ) 到 的 所 有 边 

; 对 象 的 字符 串 表示 
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这 份 API 和 Graph 的 API (请 见 表 4.1.1) 


非常 相似 。 两 者 的 两 个 重要 的 不 同 之 处 在 
于 本 节 API 的 基础 是 Edge 且 添 加 了 一 个 
edges 0) 方法 (请 见 框 注 “ 返 回 加 权 无 向 图 
中 的 所 有 边 ”) 来 遍历 图 的 所 有 边 ( 忽略 自 
环 ) 。 后 面 框 注 “加 权 无 向 图 的 数据 类 型 ” 
中 EdgeWeightedGraph 的 实现 的 其 他 部 分 与 
4.1 节 的 无 向 图 的 实现 基本 相同 ， 只 是 在 邻接 
表 中 用 Edge 对 象 蔡 代 了 Graph 中 的 整数 来 作为 链表 的 结 点 。 
图 4.3.7 显示 的 是 在 处 理 样 例文 件 tinyEWG.txt 时 用 EdgeWeightedGraph 对 象 表示 的 加 权 无 向 


public Iterable<Edge> edges() 


Bag<Edge> b = new Bag<Edge>() ; 
for (int v= 0; Vv < V; Vv++) 


for (Edge e : 


adj[v]) 


if (e.other(v) > v) b.add(e); 


return b; 


1 


返回 加 权 无 向 


图 。 它 按照 1.3 节 中 的 标准 实现 显示 了 链表 中 每 个 Bag 对 象 的 内 容 。 为 了 整洁 ， 


图 中 的 所 有 边 


] 


对 int 值 和 一 


个 double 值 表示 每 个 Edge 对 象 。 实 际 的 数据 结构 是 一 个 链表 ， 其 中 每 个 元 素 都 是 一 个 指向 含有 


这 些 值 的 对 象 的 指针 。 需 要 特别 注意 的 是 ， 虽 然 每 个 Edge 对 象 者 


Bb 有 两 个 引用 ( 每 个 顶点 的 链表 中 


都 有 一 个 ) ， 但 图 中 的 每 条 边 所 对 应 的 Edge 对 象 只 有 一 个 。 在 示意 图 中 ， 边 在 链表 中 的 出 现 顺序 


二 


和 处 理 它 们 的 顺序 是 相反 的 ， 这 是 由 于 标准 链表 实现 和 栈 的 相似 性 所 导致 的 。 和 Graph 一 样 ， 使 用 


Bag 对 象 可 以 保证 用 例 的 代码 和 链表 中 对 象 的 顺序 是 无 关 的 。 


tinyEWG.txt [6 0 |.58 2 |.26 广 -| 0|14|1.38 广 -| 0 17 1.16 
到 
~ 
3 _E 
16 一 adj[] ~[1 3 |.29 21.36 上 | 1|171.19 | 1|5 |.32 > 
45 0.35 | a 
de Ss [e121.40 7|.34 上 -|112|.36 上 Ho[2|.26 上 -|2|3|.17 
07 0.16 ， 
1 5 0.32 | ~|316l.52 3 |.29 上-|2|3|.77 
04 0.38 3 
23 017 4| 上 上 [< 
17 019 5S [6 141.9%3 4|.38 [4171.37 ||4|s1.35 
a 指向 同一 个 
12 0.36 1 .32 7 |.28 | 4 2 
13 0.29 7 2 Edge 对 象 的 引用 
2 7 0.34 a 
6. 2 0 .40 [6 |41.93 01.58 上 -|3|6|.52 上 -|6|21.40 
3 6 0.52 
6 0 0.58 [2171.34 7|.19 上 -|o171.16 上 -| 5|7|.28 上 -| 5|17|.28 
6 4 0.93 
图 4.3.7 “加权 无 向 图 的 表示 
带 权重 的 边 的 数据 类 型 


public class Edge implements Comparable<Edge> 


{ 
private final int v; 
private final int w; 


private final double weight; 


public Edge(int v, int w, double weight) 


{ 


this.v = Vi; 


// 顶点 之 一 
// 另 一 个 顶点 
// 边 的 权重 


} 


4.3 


this.w = w; 
this.weight = weight; 
了 


public double weight() 
{ return weight; 了 


public int either() 
{ return v; } 


public int other(int vertex) 
{ 
if (vertex == V) return w; 
else if (vertex == w) return v; 
else throw new RuntimeException("Inconsistent edge"); 


} 


public int compareTo(Edge that) 


{ 
i (this.weight() < that.weight()) return -1; 


else if (this.weight() > that.weight()) return +1; 
else return 0; 


} 


public String toStringQO 
{ return String.format("%d-%d %.2f", v, w, weight); } 
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该 数据 结构 提供 了 either() 和 other0) 两 个 方法 。 在 已 知 一 个 顶点 v 时 ， 用 例 可 以 使 用 other(v) 
来 得 到 边 的 另 一 个 顶点 。 当 两 个 顶点 都 是 未 知 的 时 候 ， 用 例 可 以 使 用 惯用 代码 v=e.either()，w=e. 
other(v) ; 来 访问 一 个 Edge 对 象 。 的 两 个 顶点 。 
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加 权 无 向 图 的 数据 类 型 


public class EdgeWeightedGraph 


{ 


private final int V; // 顶点 总 数 
private int E; // 边 的 总 数 
private Bag<Edge>[] adj ; // 邻接 表 


public EdgeWeightedGraph(int V) 
. 
this.V = Vi 
this.E = 0; 
adj = (Bag<Edge>[]) new Bag[V]; 
for (int V = 0; Vv < Vi Vv++) 
adj[v] = new Bag<Edge>QO; 
} 


public EdgeWeightedGraph(In in) 
// 见 练习 4.3.9 


public int VO { return V; } 
public int EO) { return E; } 


public void addEdge(Edge e) 
{ 


int v = e.either(), w = e.other(v); 
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adj[v] .add(e) ; 
adj [wj] .add(Ce) ; 
E++; 


} 


public Iterable<Edge> adj(int v) 
{ return adj[v]; } 


public Iterable<Edge> edges() 
// 请 见 4.3.2 节 框 注 “ 返 回 加 权 无 向 图 中 的 所 有 边 ” 


} 

该 实现 使 用 了 一 个 由 顶点 索引 的 邻接 表 。 与 Graph ( 请 见 4.1.2.2 节 框 注 “Graph 数据 类 型 ”) 
一 样 ， 每 条 边 都 会 出 现 两 次 : 如 果 一 条 边 连 接 了 顶点 v 和 w， 那 么 它 既 会 出 现在 v 的 链表 中 也 会 出 
现在 w 的 链表 中 。edges 0) 方法 将 所 有 边 放 在 一 个 Bag 对 象 中 (请 见 4.3.2 节 框 注 “ 返 回 加权 无 向 
图 中 的 所 有 边 ”) 。toString() 方法 的 实现 留 作 练习 。 
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4.3.2.1 用 权重 来 比较 边 

API 说 明 Edge 类 必须 实现 Comparable 接口 并 包含 一 个 compareToQ 方法 。 一 幅 加 权 无 向 图 9 
的 边 的 自然 次 序 就 是 按 权 重 排序 ， 相 应 的 compareTo 0) 方法 的 实现 也 就 很 简单 了 。 
4.3.2.2 平行 边 

和 无 环 图 的 实现 一 样 ， 这 里 也 允许 存在 平行 边 。 我 们 也 可 以 用 更 复杂 的 方式 实现 Edge- 
WeightedGraph 类 来 消除 平行 边 ， 比 如 只 保留 平行 的 边 中 的 权重 最 小 者 。 
4.3.2.3 自 环 

允许 存在 自 环 。 尽 管 自 环 可 能 的 确 存在 于 输入 或 是 数据 结构 之 中 ,但 是 EdgeweightedGraph 
中 edgesQ 〇 的 实现 并 没有 统计 它们 。 这 对 最 小 生成 树 算法 没有 影响 ， 因 为 最 小 生成 树 肯 定 不 会 含有 
自 环 。 如 果 在 应 用 中 自 环 很 重要 ， 那 你 或 许 需要 根据 应 用 场景 修改 代码 。 
你 会 看 到 ， 有 了 Edge 对 象 之 后 用 例 的 代码 就 可 以 变 得 更 加 干净 整洁 。 这 也 有 个 小 小 的 代价 : 
每 个 邻接 表 的 结 点 都 是 一 个 指向 Edge 对 象 的 引用 ， 它 们 含有 一 些 宛 余 的 信息 (v 的 邻接 链表 中 的 
每 个 结 点 都 会 用 一 个 变量 保存 v ) 。 使 用 对 象 也 会 带 来 一 些 开销 。 虽然 每 条 边 的 Edge 对 象 都 只 有 
一 个 ， 但 邻接 表 中 还 是 会 含有 两 个 指向 同一 Edge 对 象 的 引用 。 另 一 种 广泛 使 用 的 方案 是 与 Graph 
一 样 ， 用 两 个 结 点 对 象 来 表示 一 条 边 ， 每 个 结 点 对 象 都 会 保存 顶点 的 信息 和 边 的 权重 。 这 种 方法 也 


UD 


是 有 代价 的 一 一 需要 两 个 结 点 ， 每 条 边 的 权重 都 会 被 保存 两 遍 。 


4.3.3 ”最 小 生成 树 的 API 和 测试 用 例 

按照 惯例 ， 在 API 中 会 定义 一 个 接受 加 权 无 向 图 为 参数 的 构造 函数 并 且 支 持 能 够 为 用 例 返 回 图 
的 最 小 生成 树 和 其 权重 的 方法 。 那 么 我 们 应 该 如 何 表 示 最 小 生成 树 呢 ”由 于 图 G 的 最 小 生成 树 是 G 
的 一 幅 子 图 并 且 同 时 也 是 一 棵 树 ， 因 此 我 们 有 很 多 选择 ， 最 主要 的 几 种 表示 方法 为 : 
口 一 组 边 的 列表 ; 
口 一 幅 加 权 无 向 图 ; 
口 一 个 以 顶点 为 索引 且 含 有 父 结 点 链接 的 数组 。 

在 为 各 种 应 用 选择 这 些 表示 方法 时 ， 我 们 希望 尽量 给 予 最 小 生成 树 的 实现 以 最 大 的 灵活 性 ， 
此 我 们 采用 了 表 4.3.4 所 示 的 API。 


表 4.3.4 最 小 生成 树 的 API 


public class MST 
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MST(EdgeWeightedGraph GD) 


Iterable<Edge> edgesQ) 
double weight() 


4.3.3.1 测试 用 例 

和 以 前 一 样 ， 我 们 会 创建 样 图 并 开发 一 个 
测试 用 例 来 测试 最 小 生成 树 的 实现 。 右 侧 框 注 
就 是 一 个 示例 。 它 从 输入 流 中 读 取 图 的 所 有 边 
并 构造 一 幅 加 权 无 向 图 ， 然 后 计算 该 图 的 最 小 
生成 树 并 打印 树 的 所 有 边 和 权重 之 和 。 
4.3.3.2 ”测试 数据 

你 可 以 在 本 书 的 网 站 上 找到 tinyEWG .txt 
文件 ， 它 定义 了 我 们 用 来 展示 最 小 生成 树 算法 
的 轨迹 样 图 (请 见 图 4.3.1 ) 。 在 网 站 上 你 还 能 
找到 mediumEWG.txt， 它 定义 了 一 幅 含 有 250 


个 顶点 的 加 权 无 向 图 ， 如 图 4.3.8 所 示 。 它 也 是 一 幅 欧 几 里 得 


边 为 连接 它们 的 线段 且 权 重 为 两 点 之 间 的 欧 几 里 得 及 


最 小 生成 树 的 所 有 边 


最 小 生成 树 的 权重 


public static void main(String[] args) 


{ 


In in = new In(args[0]); 
EdgeWeightedGraph G; 
G = new EdgeWeightedGraph (in); 


MST mst = new MST(G) ; 


for (Edge e : 


Stdout.println(Ce) ; 
Stdout .printlnCmst.weight()) ; 


mst.edges()) 


最 小 生成 树 的 测试 用 例 


E 离 。 这 样 的 图 有 助 于 
行为 ， 同 时 也 是 我 们 提 到 过 的 许多 典型 实际 问题 的 模型 ， 例 妇 


还 能 找到 一 幅 较 大 的 样 图 largeEWG.txt， 它 是 一 幅 含 有 一 百 万 个 顶点 的 欧 几 里 得 
在 合理 的 时 间 范 围 内 通过 计算 得 到 这 种 规模 的 图 的 最 小 生成 树 。 


more tinyEWG.txt 
6 


本 二 3 


加 四 mW 四 户口 上 由 口 上 口内 上 上 co 谎 


入 OONONONNNOPAUUNNN 
[oe 
On 


ava MST tinyEWG.txt 
0.16 
(Oj ls) 
S26 
7 
.28 
35 
40 


POOPAPUANOPONR 
SDS 


j 
-7 
-7 
-2 
= 
-7 
= 
-2 
.8 


% more mediumEWG .txt 


F 我 们 理 
[公路 地 图 和 电路 图 


图 。 我们 的 


50 1 
244 246 0.11712 
239 240 0.10616 
238 245 0.06142 
235 238 0.07048 
233 240 0.07634 
232 248 0.10223 
231 248 0.10699 
229 249 0.10098 
228 241 0.01473 
6 23100R07638 
. . ，[ 还 有 1263 条 边 ] 
% java MST mediumEWG.txt 
O0822500802383 
49 225 0.03314 
44 49 0.02107 
44 204 0.01774 
49 97 0.03121 
202 204 0.04207 
176 202 0.04299 
176 191 0.02089 
68 176 0.04396 
58 68 0.04795 
. . [还 有 239 条 边 ] 
10.46351 


图 的 示例 ， 它 的 顶点 都 是 平面 上 的 点 ， 
解 最 小 生成 树 算法 的 
。 在 本 书 的 网 站 上 你 


目标 就 是 
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加 权 无 向 图 最 小 生成 树 


614 
2 
615 图 4.3.8 一 幅 含有 250 个 顶点 的 无 向 加 权 欧 儿 里 得 医 


一 、 


共 含 有 1273 条 边 ) 和 它 的 最 小 生成 树 


4.3.4 ”Prim 算法 

我 们 要 学 习 的 第 一 种 计算 最 小 生成 树 的 方法 叫做 Prim 算法 ， 它 的 每 一 步 都 会 为 一 棵 生长 中 的 
树 添加 一 条 边 。 一 开始 这 棵 树 只 有 一 个 顶点 ， 然 后 会 向 它 添加 天 1 条 边 ， 每 次 总 是 将 下 一 条 连接 树 
中 的 顶点 与 不 在 树 中 的 顶点 上 且 权 重 最 小 的 边 〈 黑色 表示 ) 加 入 树 中 ( 即 由 树 中 的 顶点 所 定义 的 切 分 
中 的 一 条 横 切 边 ) ， 如 图 4.3.9 所 示 。 


命题 L。Prim 算法 能 够 得 到 任意 加 权 连 通 图 的 最 小 生成 树 。 


证 明 。 由 命题 K 可 知 ， 这 棵 不 断 生长 的 树 定义 了 一 个 切 分 且 不 存在 黑色 的 横 切 边 。 该 算法 会 选 
取 权 重 最 小 的 横 切 边 并 根据 贪心 算法 不 断 将 它们 标记 为 黑色 。 


= 


以 上 我 们 对 Prim 算法 的 简单 描述 没有 回答 一 个 关键 的 问 
题 ， 如何 才 能 ( 有 效 地 ) 找到 最 小 权重 的 模 切 边 呢 ? 人 们 提 失效 的 过。 (红色 
出 了 很 多 方法 一 一 在 用 一 种 特别 简单 的 方法 解决 这 个 问题 之 


后 我 们 会 讨论 其 中 的 一 部 分 方法 。 、 
4.3.4.1 数据 结构 / 
实现 Prim 算法 需要 用 到 一 些 简单 常见 的 数据 结构 。 具 体 来 N\ 
说 ， 我 们 会 用 以 下 方法 表示 树 中 的 顶点 、 边 和 横 切 边 。 将 要 添加 到 最 
口 顶点。 使 用 一 个 由 顶点 索引 的 布尔 数组 marked[] ， 如 Ce 
果 顶 点 v 在 树 中 ,那么 marked[v] 的 值 为 true。 (黑色 加 粗 ) | 
口 边 。 选 择 以 下 两 种 数据 结构 之 一 : 一 条 队列 mst 来 保 /~、 0 
存 最 小 生成 树 中 的 边 ,或 者 一 个 由 顶点 索引 的 Edge 对 ee 本 二 
象 的 数组 edgeTo[]， 其 中 edgeTo[v] 为 将 v 连 接 到 ”站 让 和 rm 工法 


树 中 的 Edge 对 象 。 
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口 横 切 边 : 使 用 一 条 优先 队列 MinPQ<Edge> 来 根据 权重 比较 所 有 边 ( 请 见 4.3.2 节 框 注 “ 带 权 
重 的 边 的 数据 类 型 ” ) 。 
有 了 这 些 数据 结构 我 们 就 可 以 回答 “ 哪 条 边 的 权重 最 小 ? ”这 个 基本 的 问题 了 。 
4.3.4.2 ”维护 横 切 边 的 集合 

每 当 我 们 向 树 中 添加 了 一 条 边 之 后 ， 也 
向 树 中 添加 了 一 个 顶点 。 要 维护 一 个 包含 所 有 
横 切 边 的 集合 ， 就 要 将 连接 这 个 顶点 和 其 他 
所 有 不 在 树 中 的 顶点 的 边 加 入 优先 队列 (用 hn 
marked[] 来 识别 这 样 的 边 ) 。 但 还 有 一 点 : 


连接 新 加 入 树 中 的 顶点 与 其 他 已 经 在 树 中 顶点 > 所 有 横 切 边 
> 26 (按照 权重 排序 ) 


1=7 内 

的 所 有 边 都 失效 了 。 ( 这 样 的 边 都 已 经 不 是 横 。 5.7 0 
切 边 了 ， 因 为 它 的 两 个 顶点 都 在 树 中 。) Prim  * 2-7 0.34 

0-4 0. 

6-0 0 


算法 的 即时 实现 可 以 将 这 样 的 边 从 优先 队列 中 


删 掉 ， 但 我 们 先 来 学 习 这 个 算法 的 一 种 延 时 实 0-2 0.26 
现 ， 将 这 些 边 先 留 在 优先 队列 中 ， 等 到 要 删除 os， 
它们 的 时 候 再 检查 边 的 有 效 性 。 * 1-5 0.32 
图 4.3.10 是 处 理 样 图 tnyEWG.txt 的 轨迹 。 #2. 和.36 
每 一 张 图 片 都 是 算法 访问 过 一 个 顶点 之 后 (被 。 2.3 0.17 i 
6=0 0:58 


添加 到 树 中 ， 邻 接 链表 中 的 边 也 已 经 被 处 理 完 区 
成 ) 图 和 优先 队列 的 状态 。 优 先 队列 的 内 容 被 
按照 顺序 显示 在 一 侧 ， 新 加 入 的 边 的 劳 边 标 有 

星 号 。 算 法 构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 中 ， 将 它 
的 邻接 链表 中 的 所 有 边 添加 到 优先 队列 
之 中 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生成 树 
之 中 ， 将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 ， 

口 将 顶点 1 和 边 1-7 添加 到 最 小 生成 树 
之 中 ， 将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生成 树 
之 中 ,将 边 2-3 和 6-2 添加 到 优先 队 
列 之 中 。 边 2-7 和 1-2 失效 。 

口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 
之 中 , 将 边 3-6 添加 到 优先 队列 之 中 。 

边 1-3 失效 。 

口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 
之 中 , 将 边 4-5 添加 到 优先 队列 之 中 。 

边 1-5 失效 。 图 4.3.10 ”Prim 算法 的 轨迹 〈 延 时 实现 ， 另 见 彩 揪 ) 
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口 从 优先 队列 中 删除 失效 的 边 1-3 、1-5 和 2-7。 
口 将 顶点 4 和 边 4-5 添 加 到 最 小 生成 树 之 中 ,将 边 6-4 添 加 到 优先 队列 之 中 。 边 4-7 和 0-4 失 效 。 
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口 从 优先 队列 中 删除 失效 的 边 1-2、4-7 和 0-4。 
口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 ， 和 顶点 6 相关 联 的 其 他 边 均 失 效 。 
在 添加 了 了 个 顶点 (以 及 六 1 条 边 ) 之 后 ， 最 小 生成 树 就 完成 了 。 优 先 队列 中 的 余下 的 边 都 是 
无 效 的 ， 不 需要 再 去 检查 它们 。 
4.3.4.3 ”实现 

有 了 这 些 预备 知识 ，Prim 算法 的 实现 就 很 简单 了 ， 请 见 后 面 框 注 “最 小 生成 树 的 Prim 算法 的 
延 时 实现 ”中 的 LazyPrimMST 类 。 和 前 两 节 实 现 深度 优先 搜索 和 广度 优先 搜索 一 样 ， 实 现 会 在 构 
造 函 数 中 计算 图 的 最 小 生成 树 ， 这 样 用 例 方 法 就 可 以 用 查询 类 方法 获得 最 小 生成 树 的 各 种 属性 。 我 
们 使 用 了 一 个 私有 方法 visitQ 来 为 树 添 加 一 个 顶点 、 将 它 标记 为 “已 访问 ”并 将 与 它 关 联 的 所 
有 未 失效 的 边 加 入 优先 队列 ， 以 保证 队列 含有 所 有 连接 树 顶 点 和 非 树 顶点 的 边 (也 可 能 含有 一 些 已 
经 失效 的 边 ) 。 代 码 的 内 循环 是 算法 的 人 我 们 从 优先 队列 中 取出 一 条 边 并 将 它 添加 到 树 中 
(如 果 它 还 没有 失效 的 话 ) ， 再 把 这 条 边 的 另 一 个 顶点 也 添加 到 树 中 ， 然 后 用 新 顶点 作为 参数 调用 
visit() 方法 来 更 新 横 切 边 的 集合 。weight 0) 方法 可 以 遍历 树 的 所 有 边 并 得 到 它们 的 权重 之 和 ( 延 
时 实现 ) 或 是 用 一 个 运行 时 的 变量 统计 总 权重 (即时 实现 ) ， 这 一 点 留 作 练 习 4.3.31。 
4.3.4.4 ”运行 时 间 

Prim 算法 有 多 快 ? 我 们 已 经 知道 优先 队列 的 性 质 ， 所 以 要 回答 这 个 问题 并 不 困难 。 


命题 M。Prim 算法 的 延 时 实现 计算 一 幅 含 有 信 个 顶点 和 忆 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 与 五 成 正比 ， 所 需 的 时 间 与 BlogE 成 正比 (最 坏 情况 ) 。 


证 明 。 算 法 的 瓶颈 在 于 优先 队列 的 insert() 和 delMin() 方法 中 比较 这 的 权重 的 次 数 。 优 先 
队列 中 最 多 可 能 有 瓦 条 边 ， 这 就 是 空间 需求 的 上 限 。 在 最 坏 情况 下 ， 一 次 播 入 的 成 本 为 ~ lgE， 
删除 最 小 元 素 的 成 本 为 ~ 2lgE (请 见 第 2 章 的 命题 Q ) 。 因 为 最 多 只 能 插入 EE 条 边 ， 删 除 E 次 
最 小 元 素 ， 时 间 上 限 显 而 易 见 。 


在 实际 中 ,估计 的 运行 时 间 上 限 是 比较 保守 的 ， 因 为 一 般 情况 下 优先 队列 中 的 边 都 远 小 于 5。 
这 么 困难 的 任务 ， 解 决 方法 却 如 此 的 简单 、 高 效 而 实用 ， 实 在 令 人 佩服 。 下 面 ， 我 们 会 简要 讨论 一 
些 改 进 算 法 的 方法 。 和 以 前 一 样 , 在 性 能 优先 的 应 用 场景 中 仔细 评估 这 些 改 进 的 工作 应 该 留 给 专家 。 


最 小 生成 树 的 Prim 算法 的 延 时 实现 


public class LazyPrimMST 


private boolean[] marked; // 最 小 生成 树 的 顶点 
private Queue<Edge> mst; // 最 小 生成 树 的 边 
private MinPQ<Edge> pq; // 横 切 边 (包括 失效 的 边 ) 


public LazyPrimMST(EdgeWeightedGraph ©) 
{ 


pq = new MinPQ<Edge>() ; 

marked = new boolean[G.VO]; 

mst = new Queue<Edge>() ; 

visit(G, 0); // 假设 G 是 连通 的 (请 见 练习 4.3.22 ) 
while (!pq.isEmpty()) 


Edge e = pq.delMinQO; 
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// 从 pq 中 得 到 权重 最 小 的 边 


int v = e.either()，w = e.other(v); 


if (marked[v] && marked[w]) continue; 


mst.enqueue(e); 
if (CImarked[v]) visit(G, v); 


// 跳 过 失效 的 边 
// 将 边 添 加 到 树 中 
// 将 项 点 (Vv 或 Ww ) 添加 到 树 中 


if (!marked[w]) visit(G, w); 
} 
} 


private void visit(EdgeWeightedGraph G, int v) 
{ // 标记 顶点 v 并 将 所 有 连接 V 和 未 被 标记 顶点 的 边 加 入 pq 
marked[v] = true; 
for (Edge e : G.adj(v)) 
if (!marked[e.other(v)]) pq.insert(e); 
} 


public Iterable<Edge> edgesQO 
{ return mst; 


public double weight() // 请 见 练习 4.3.31 


} 
Prim 算法 的 这 种 实现 使 用 了 一 条 优先 队列 来 保存 所 有 的 横 切 边 、 一 个 由 顶点 索引 的 数组 来 标记 树 的 
顶点 以 及 一 条 队列 来 保存 最 小 生成 树 的 边 。 这 种 延 时 实现 会 在 优先 队列 中 保留 失效 的 边 。 
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4.3.5 ”Prim 算法 的 即时 实现 
要 改进 LazyPrimMST， 可 以 尝试 从 优先 队列 中 删除 失效 的 


边 ， 这 样 优先 队列 就 只 含有 树 顶点 和 非 树 顶点 之 间 的 横 切 边 ， 9 
但 其 实 还 可 以 删除 更 多 的 边 。 关 键 在 于 ， 我 们 感 兴趣 的 只 是 连 | 
接 树 顶点 和 非 树 顶 点 中 权重 最 小 的 边 。 当 我 们 将 顶点 v 添加 到 

树 中 时 ， 对 于 每 个 非 树 顶 点 w 产 生 的 变化 只 可 能 使 得 w 到 最 小 


生成 树 的 距离 更 近 了 ， 如 图 4.3.11 所 示 。 简 而 言 之 ， 我 们 不 需 


A 


要 在 优先 队列 中 保存 所 有 从 w 到 树 顶点 的 边 一 一 而 只 需要 保存 使 得 w 树 
其 中 权重 最 小 的 那 条 ， 在 将 v 添加 到 树 中 后 检查 是 否 需 要 更 新 的 距离 更 近 了 
这 条 权重 最 小 的 边 〔 因为 v-w 的 权重 可 能 更 小 ) 。 我 们 只 需 明 图 43 11 prim 算法 的 即时 实现 


历 v 的 邻接 链表 就 可 以 完成 这 个 任务 。 换 句 话 说， 我 们 只 会 在 
优先 队列 中 保存 每 个 非 树 顶点 w 的 一 条 边 : 将 它 与 树 中 的 顶点 连接 起 来 的 权重 最 小 的 那 条 边 。 将 w 和 
树 的 顶点 连接 起 来 的 其 他 权重 较 大 的 边 迟 早 都 会 失效 ， 所 以 没 必要 在 优先 队列 中 保存 它们 。 

PrimMST 类 ( 请 见 算法 4.7) 使 用 了 2.4 节 中 介绍 的 索引 优先 队列 实现 的 Prim 算法 。 它 将 
LazyPrimMST 中 的 marked[] 和 mst[] 替换 为 两 个 顶点 索引 的 数组 edgeTo[] 和 distTo[] ， 它 们 
具有 如 下 性 质 。 

口 如 果 顶 点 v 不 在 树 中 但 至 少 含 有 一 条 边 和 树 相 连 ， 那 么 edgeTo[v] 是 将 v 和 树 连 接 的 最 短 边 ， 
distTo[v] 为 这 条 边 的 权重 。 
口 所 有 这 类 顶点 v 都 保存 在 一 条 索引 优先 队列 中 , 索引 v 关联 的 值 是 edgeTo[v] 的 边 的 权重 。 

这 些 性 质 的 关键 在 于 优先 队列 中 的 最 小 键 即 是 权重 最 小 的 横 切 边 的 权重 ,而 和 它 相 关联 
的 顶点 VvV 就 是 下 一 个 将 被 添加 到 树 中 的 顶点 。marked[] 数组 已 经 没有 必要 了 ， 因 为 判断 条 
件 Imarked[w] 等 价 于 distTo[w] 是 无 穷 的 ( 且 edgeTo[w] 为 nul11 ) 。 要 维护 这 些 数据 结构 ， 
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PrimMST 会 从 优先 队列 中 取出 一 个 项 
点 v 并 检查 它 的 邻接 链表 中 的 每 条 边 
v-w。 如 果 w 已 经 被 标记 过 ， 那 么 这 条 
边 就 已 经 失效 了 ; 如 果 w 不 在 优先 队 
列 中 或 者 v-w 的 权重 小 于 目前 已 知 的 
最 小 值 edgeTo[w] , 代码 会 更 新 数组 ， 
将 v-w 作 为 将 w 和 树 连 接 的 最 佳 选 择 。 
图 4.3.12 所 示 的 是 PrimMST 在 处 理 
样 图 tnyEWG.txt 过 程 中 的 轨迹 。 将 每 
个 顶点 加 入 最 小 生成 树 之 后 ，edgeTo[] 
和 distTo[] 的 内 容 显示 在 右 侧 ， 不 同 
的 颜色 显示 了 最 小 生成 树 中 的 顶点 ( 索 
引 为 黑色 ) 、 非 最 小 生成 树 的 顶点 〈 索 
引 为 灰色 ) 、 最 小 生成 树 的 边 〈 黑色 ) 
和 优先 队列 中 的 索引 值 对 ( 红色) 。 在 
示意 图 中 ， 将 每 个 非 最 小 生成 树 顶 点 连 
接 到 树 的 最 短 边 为 红色 。 该 算法 向 最 小 
生成 树 中 添加 的 边 的 顺序 和 延 时 版 本 相 
同 , 不 同 之 处 在 于 优先 队列 的 操作 。 它 
构造 最 小 生成 树 的 过 程 如 下 所 述 。 
口 将 顶点 0 添加 到 最 小 生成 树 之 
中 ， 将 它 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 ， 因 为 这 些 
边 都 是 目前 (唯一 ) 已 知 的 连接 
非 树 顶点 和 树 顶 点 的 最 短 边 。 
口 将 顶点 7 和 边 0-7 添加 到 最 小 生 
成 树 之 中 ,将 边 1-7 和 5-7 添加 
到 优先 队列 之 中 。 将 连接 顶点 4 
与 树 的 最 小 边 由 0-4 替换 为 4-7， 
2-7 不 会 影响 到 优先 队列 ， 因 为 
它们 的 权重 不 大 于 0-2 的 权重 。 
口 将 顶点 1 和 边 1-7 添加 到 最 小 生 
成 树 之 中 ， 将 边 1-3 添加 到 优 2 
队列 之 中 。 
口 将 顶点 2 和 边 0-2 添加 到 最 小 生 
成 树 之 中 ， 将 连接 顶点 6 与 树 的 


ct 


黑色 : 最 小 
生成 树 中 的 边 


红色 : 优先 队 
列 (pq) 中 的 边 


灰色 : 非 最 小 
生成 树 中 的 边 


及 


@@ 
© 


红色 加 粗 : 优先 
队列 (pq) 中 的 最 
小 边 ， 即 将 被 加 
入 最 小 生成 树 


< 
© 


- 


NOAAwNpPoO 


edgeTo[] distTo[] 


0 


2 0-2 0.26 


4 0-4 0.38 


6 6-0 0.58 
7 0-7 0.16 <— 


PnPoP 

NONAWwWNN 

Ooooooo0o 
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a 


4.3.12 ”Prim 算法 的 轨迹 图 (即时 版 本 ， 另 见 彩 插 ) 
最 小 边 由 0-6 替换 为 6-2， 将 连接 顶点 3 与 树 的 最 小 边 由 1-3 替换 为 2-3。 


口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 之 中 。 
口 将 项 点 5 和 边 5-7 添加 到 最 小 生成 树 之 中 ,将 连接 顶点 4 与 树 的 最 小 边 由 4-7 替换 为 4-5。 
口 将 顶点 4 和 边 4-5 添加 到 最 小 生成 树 之 中 。 
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口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 。 
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添加 了 天 1 条 边 之 后 ， 最 小 生成 树 完 成 且 优 先 队 列 为 空 。 00 
621 
算法 4.7 最 小 生成 树 的 Prim 算法 (即时 版 本 ) 
public class PrimMST 
{ 
private Edge[] edgeTo; // 距离 树 最 近 的 边 
private double[] distTo; // distTo[w]=edgeTo[w] .weight() 
private boolean[] marked; // 如 果 V 在 树 中 则 为 true 
private IndexMinPQ<Double> pq; // 有 效 的 横 切 边 
public PrimMST(EdgeWeightedGraph GO) 
上 
edgeTo = new Edge[a.VO]; 
distTo = new double[G.VO]; 
marked = new boolean[G.VO]; 
for (int v = 0; Vv < G.VO; v++) 
distTo[v] = Double.POSITIVE_INFINITY; 
pq = new IndexMinPQ<Double>(G.VO); 
distTo[0] = 0.0; 
pq.insert(0, 0.0); // 用 顶点 0 和 权重 0 初始 化 pq 
while (!pq.isEmpty()) 
visit(G，pq.delMin()D) ; // 将 最 近 的 顶点 添加 到 树 中 
} 
private void visit(EdgeWeightedGraph G, int v) 
{ // 将 顶点 v 添 加 到 树 中 ， 更 新 数据 
marked[v] = true; 
for (Edge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (marked[w]) continue; // V-W 失 效 
if (e.weight() < distTo[w]) 
{ // 连接 w 和 树 的 最 佳 边 Edge 变 为 e 
edgeTo[w] = e; 
distTo[w] = e.weight(); 
if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 
} 
} 
3 
public Iterable<Edge> edgesQ) // 请 见 练习 4.3.21 
public double weight() // 请 见 练习 4.3.31 
} 
这 份 Prim 算法 的 实现 将 所 有 有 效 的 横 切 边 保存 在 了 -一 条 索引 优先 队列 中 。 a 


该 算法 的 证 明 与 命题 M 的 证 明 本 质 上 相同 ，Prim 算法 的 即时 版 本 可 以 找到 一 幅 连通 的 加 权 无 
向 图 的 最 小 生成 树 ， 所 需 时 间 和 Blogy 成 正比 ， 空 间 和 玉成 正比 ( 请 见 命题 N ) 。 对 于 实际 应 用 中 
经 常 出 现 的 巨型 稀 玻 图 ， 两 者 在 时 间 上 限 上 没有 什么 区 别 〈 因为 对 于 稀 玻 图 来 说 是 lgE ~ lg 三 ) ， 
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但 空间 上 限 变 为 了 原来 的 一 个 常数 因子 〈 但 很 显著 ) 。 在 性 能 优先 的 应 用 场景 中 ， 更 加 深入 的 分 析 
和 实验 最 好 还 是 留 给 专家 吧 ， 因 为 相关 的 因素 有 很 多 ， 例 如 MinPQ 和 IndexMinPQ 的 实现 、 图 的 表 
示 方 法 、 应 用 场景 所 使 用 的 图 模型 等 。 按 照 惯例 ， 我 们 需要 仔细 研究 这 些 改 进 ， 因 为 只 有 当 这 种 常 
数 因子 的 性 能 改进 非常 必要 时 ， 它 所 带 来 的 代码 复杂 性 才 是 值得 的 。 在 复杂 的 现代 系统 中 有 时 这 样 
做 甚至 会 得 不 偿 失 。 


命题 N。Prim 算法 的 即时 实现 计算 一 幅 含有 人 个 顶点 和 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 和 严 成 正比 ， 所 需 的 时 间 和 ElogV 成 正比 (最 坏 情况 ) 。 


证 明 。 因 为 优先 队列 中 的 顶点 数 最 多 为 F， 且 使 用 了 三 条 由 顶点 索引 的 数组 ， 所 以 所 需 空 间 的 
上 限 和 作成 正比 。 算 法 会 进行 VV 次 插入 操作 ,人 矿 次 删除 最 小 元 素 的 操作 和 (在 最 坏 情况 下 )E 
次 改变 优先 级 的 操作 。 已 知 在 基于 堆 实 现 的 索引 优先 队列 中 所 有 这 些 操 作 的 增长 数量 级 为 logV 
[ 请 见 第 2 章 命题 Q( 续 )]， 所 以 将 所 有 这 些 加 起 来 可 知 算法 所 需 时 间 和 ElogVY 成 正比 。 


图 4.3.13 展示 了 Prim 算法 是 如 何 处 理 含有 250 个 顶点 的 欧 几 里 得 图 mediumEWG.txt 
这 是 一 个 很 有 意思 的 动态 过 程 (请 见 练习 4.3.27 ) 。 大 多 数 情况 下 ， 树 的 生长 都 是 通过 连接 一 
和 新 加 入 的 顶点 相 邻 的 顶点 。 当 新 加 入 的 顶点 周围 没有 非 树 顶 点 时 ， pp 
开始 。 


60% 


属 颖 


图 4.3.13 ”Prim 算法 (250 个 顶点 ) 


4.3.6 ” Kruskal 算法 

我 们 要 仔细 学 习 的 第 二 种 最 小 生成 树 算 法 的 主要 思想 是 按照 边 的 权重 顺序 ( 从 小 到 大 ) 处 理 它们 ， 
将 边 加 入 最 小 生成 树 中 (图 中 的 黑色 边 ) ， 加 入 的 边 不 会 与 已 经 加 入 的 边 构成 环 ， 直 到 树 中 含有 大 1 
条 边 为 止 。 这 些 黑色 的 边 逐 渐 由 一 片 森 林 合 并 为 一 棵 树 ， 也 就 是 图 的 最 小 生成 树 。 这 种 计算 方法 被 称 为 
Kruskal 算法 。 
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CQ 
Tt 
人 已 命题 O。Kruskal 算法 能 够 计算 任意 加 权 连 通 图 
人 器 的 最 小 生成 树 。 
(DD 一 GG) 下 -条 将 要 被 加 入 最 证 明 。 由 命题 区 可知， 如 果 下 一 条 将 被 加 入 最 
0 QO 小 生成 树 中 的 边 不 会 和 已 有 的 黑色 边 构 成 环 ， 
(0) 那么 它 就 跨越 了 由 所 有 和 树 顶 点 相 邻 的 顶点 组 
© ce 成 的 集合 以 及 它们 的 补 集 所 构成 的 一 个 切 分 。 
OO ei 因为 加 入 的 这 条 这 不 会 形成 环 、 它 是 目前 已 知 
3 @ 2 | 的 唯一 一 条 横 切 边 且 是 按照 权重 顺序 选择 的 边 ， 
Co) 所 以 它 必然 是 权重 最 小 的 横 切 边 。 因 此 ， 该 算 
© © 70.1 法 能 够 连续 选择 权重 最 小 的 横 切 边 ， 和 贪心 算 
OO) 1-7 0.19 法 一 致 。 
Cr | 
Prim 算 法 是 一 条 边 一 条 边 地 来 构造 最 小 生成 树 ， 
(0) 
©@, © 每 一 步 都 为 一 棵 树 添加 一 条 边 。Kruskal 算法 构造 最 
加 4-5 0.35 小 生成 树 的 时 候 也 是 一 条 边 一 条 边 地 构造 ， 但 不 同 的 
Op 9 是 它 寻 找 的 边 会 连接 一 片 森林 中 的 两 棵 树 。 我 们 从 一 
@ (2 ee 片 由 全 棵 单 顶点 的 树 构成 的 森林 开始 并 不 断 将 两 棵 树 
@ 器 合并 ( 用 可 以 找到 的 最 短 边 ) 直到 只 剩 下 一 棵 树 ， 它 
就 是 最 小 生成 树 。 
@) 图 4.3.14 显示 的 是 Kruskal 算法 处 理 tinyEWG.txt 


时 的 每 一 个 步骤。 首先 ， 权 重 最 小 的 条 边 都 被 加 入 到 


次 
(So 
车 让 
一 班 
对 到 
4 


Kruskal 算法 的 实现 并 不 困难 ; 我 们 将 会 使 用 一 条 优 
先 队列 ( 请 见 2.4 节 ) 来 将 边 按照 权重 排序 ， 用 一 
个 union-find 数据 结构 ( 请 见 1.5 节 ) 来 识别 会 形成 
环 的 边 ， 以 及 一 条 队列 ( 请 见 1.3 节 ) 来 保存 最 小 
生成 树 的 所 有 边 。 算 法 4.8 实现 了 以 上 设想 。 注意， 
使 用 队列 来 保存 最 小 生成 树 的 所 有 边 意味 着 用 例 在 
图 4.3.14 Kruskal 算法 的 轨迹 〈 另 见 彩 插 ) ”遍历 时 将 会 按照 权重 的 升序 得 到 这 些 边 。weight() 
方法 需要 遍历 所 有 边 来 取得 权重 之 和 ( 或 是 使 用 一 个 变量 动态 统计 权重 之 和 ) ， 它 的 实现 留 作 练 
习 (请 见 练习 4.3.31 ) 。 

分 析 Kruskal 算法 所 需 的 运行 时 间 很 简单 ， 因 为 我 们 已 经 知道 它 的 操作 所 需 的 时 间 。 


(9 
人 器 了 最 小 生成 树 中 ， 之 后 算法 判断 出 1-3、1-5 和 2-7 

加 已 经 失效 并 将 4-5 加 入 最 小 生成 树 。 最 后 1-2、4-7 
© 本 和 0-4 失效 ，6-2 被 加 入 最 小 生成 树 。 

5 YN、 的 机 点 所 构成 的 一 个 切 分 有 了 本 书 中 我 们 已 经 学 习 过 的 许多 工具 
@ © 


命题 N 续 ) 。Kruskal 算法 的 计算 一 幅 含有 VV 个 顶点 和 巨 条 边 的 连通 加 权 无 向 图 的 最 小 生成 
树 所 需 的 空间 和 五 成 正比 ， 所 需 的 时 间 和 BlogE 成 正比 ( 最 坏 情况 ) 。 


证 明 。 算 法 的 实现 在 构造 函数 中 使 用 所 有 边 初 始 化 优先 队列 ， 成 本 最 多 为 EE 次 比较 


(请 见 2.4 


节 )。 优先 队列 构造 完成 后 , 其 余 的 部 分 和 Prim 算 法 完全 相同 。 优先 队列 中 最 多 可 能 含有 EE 条 边 ， 
即 所 需 空间 的 上 限 。 每 次 操作 的 成 本 最 多 为 21lgE 次 比较 ， 这 就 是 时 间 上 限 的 由 来 。Kruskal 算 


会 进行 已 次 和 严 次 unionG) 操作 ， 但 这 
级 可 以 忽略 不 计 (请 见 1.5 节 )。 


法 最 多 还 些 成 本 相 比 ElogE 的 


增长 数量 


与 Prim 算法 一 样 ， 这 个 估计 是 比较 保守 的 ， 因 为 算法 在 找到 天 1 条 边 之 后 就 会 终 
成 本 应 该 与 BEHEulogE 成 正比 ， 其 中 是 权重 小 于 最 小 生成 树 中 权重 最 大 的 边 的 所 有 边 
管 拥 有 这 个 优势 ，Kruskal 算法 一 般 还 是 比 Prim 算法 要 慢 ， 因 为 在 处 理 每 条 边 时 除了 两 
完成 的 优先 队列 操作 之 外 ， 它 还 需要 进行 一 次 connect() 操作 (请 见 练习 4.3.39 ) 。 

图 4.3.15 所 示 为 Kruskal 算法 在 处 到 


按照 权重 顺序 被 添加 到 森林 中 的 。 


20% 


80% 


020 


4.3.15 


Kruskal 算法 (250 个 顶点 ) 


算法 4.8 ”最 小 生成 树 的 Kruskal 算法 


E 较 大 的 样 图 mediumEWG.txt 时 的 动态 情况 。 很 显然 ， 


总 时 间 的 


止 。 实 际 的 
的 总 数 。 尽 
种 算法 都 要 


边 是 


public class KruskalMST 
{ 


private Queue<Edge> mst; 


public KruskalMST(EdgeWeightedGraph G) 
{ 
mst new Queue<Edge>() ; 
MinPQ<Edge> pq = new MinPQ<Edge>() ; 
for(Edge e:G.edges())pq.insert(e); 
UF uf = new UF(G.VO); 


while (!pq.isEmpty() && mst.size() < G.VO-1) 
攻 


Edge e = pq.delMinQO; 
int v = e.either(), w = e.other(v); 
if (uf.connected(v, w)) continue; 


// 从 pq 得 到 权重 最 小 的 边 和 它 的 顶点 


// 忽略 失效 的 边 
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uf.unionCv，w) ; // 合并 分 量 
mst.enqueue(e); // 将 边 添加 到 最 小 生成 树 中 
} 
} 


public Iterable<Edge> edges() 
{ return mst; } 


public double weight() // 请 见 练习 4.3.31 
} 
这 份 Kruskal 算法 的 实现 使 用 了 一 条 队列 来 保 


存 最 小 生成 树 中 的 所 有 边 、 一 条 优先 队列 来 保存 还 。。。% java KrusKaiMST tinyEWS. txt 
未 被 检查 的 边 和 一 个 union-find 的 数据 结构 来 判断 无 2 0 
效 的 边 。 最 小 生成 树 的 所 有 边 会 按照 权重 的 升序 返 。 4-7 0.39 
回 给 用 例 。weight O 方法 的 实现 留 作 练习 。 人 
4 O35 
6-2 0.40 
lsd 
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4.3.7 展望 

最 小 生成 树 问 题 是 本 书 中 的 被 研究 的 最 多 的 几 个 问题 之 一 。 解 决 这 个 问题 的 基本 方法 在 现代 数 
据 结 构 和 算法 性 能 分 析 手 段 的 发 明之 前 就 已 经 问世 了 。 在 当时 ,计算 一 幅 含 有 上 千 条 边 的 图 的 最 小 
生成 树 还 是 一 项 令 人 望 而 生 旦 的 任务 。 我 们 学 习 的 最 小 生成 树 算 法 和 这 些 老式 方法 的 不 同 之 处 主要 
在 于 运用 了 现代 的 数据 结构 来 完成 一 些 基 本 的 操作 ， 这 (再 加 上 现代 的 计算 能 力 ) 使 得 我 们 可 以 计 
算 含 有 上 百 万 甚至 数 十 亿 条 边 的 图 的 最 小 生成 树 。 
4.3.7.1 历史 资料 

计算 稠密 图 的 最 小 生成 树 算 法 ( 请 见 练习 4.3.29 ) 最 早 是 由 RPrim 在 1961 年 发 明 的 ， 随 
后 E.W.Dijkstra 也 独自 发 明了 它 。 尽 管 Dijkstra 的 描述 更 为 通用 ， 但 这 个 算法 通常 被 称 为 Prim 算 
法 。 其 实 算法 的 基本 思想 是 VJarnik 在 1939 年 发 明 的 ， 所 以 一 些 人 也 将 这 种 方法 称 为 Jarnik 算法 
并 认为 Prim 的 (或 是 Dijkstra ) 的 贡献 在 于 为 稠密 图 找到 了 高 效 的 实现 算法 。 在 20 世纪 70 年 代 
优先 队列 发 明之 后 ， 它 直接 被 应 用 在 了 寻找 稀 玖 图 中 的 最 小 生成 树 上 。 计 算 稀 玖 图 中 的 最 小 生成 
树 所 需 的 时 间 和 FlogE 成 正比 很 快 广为人知 且 并 没有 将 此 归功 于 任何 一 位 研究 者 。 在 1984 年 ， 
M.L.Fredman 和 了 .E.Tarjan 发 明了 数据 结构 斐 波 纳 契 堆 ， 将 Prim 算法 所 需 的 运行 时 间 在 理论 上 改 
进 到 了 E+VliogV。J.Kruskal 在 1956 年 就 发 表 了 他 的 算法 ,但 同样 ， 相 关 的 抽象 数据 结构 在 很 多 年 
中 都 没有 被 仔细 研究 。 有 趣 的 是 ，Kruskal 的 论文 中 提 到 了 Prim 算法 的 一 个 变种 ， 而 O.Boruvka 
在 1926 年 (! ) 的 论文 中 就 已 经 提 到 了 这 两 种 不 同 的 方法 。Boruvka 的 论文 要 解决 的 是 一 个 电 
力 分 配 的 问题 并 介绍 了 另外 一 种 用 现代 数据 结构 可 以 轻易 实现 的 方法 ( 请 见 练习 4.3.43 和 练习 
4.3.44 ) 。M.Sollin 在 1961 年 重新 发 现 了 这 个 方法 。 该 方法 随后 引起 了 其 他 人 的 注意 并 成 为 实现 较 
好 的 渐进 性 能 的 最 小 生成 树 算法 和 并 行 最 小 生成 树 算法 的 基础 。 各 种 最 小 生成 树 算法 的 特点 请 见 
表 4.3.5。 
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Ar 


算 法 


表 4.3.5 各 种 最 小 生成 树 算 法 的 性 能 特点 
V 个 顶点 E 条 边 ， 最 坏 情况 下 的 增长 数量 级 


用 


间 


时 间 


延 时 的 Prim 算法 
即时 的 Prim 算法 
Kruskal 


Fredman-Tarjan 


Chazelle 
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理想 情况 


4.3.7.2 ”线性 的 最 小 生成 树 算 法 ? 


一 方面 ， 目 前 还 没有 理论 能 够 证 明 ， 不 存在 能 在 线 怕 


男 一 方面 ， 发 明 能 够 在 线性 时 间 内 计 


年 代 将 union-find 数据 结构 应 
这 些 抽 象 数 据 结 构 就 成 了 许多 人 研究 者 的 主要 目标 。 许 


| 


ElogE 

ElogV 

ElogE 

EtVlogV 

非常 接近 但 还 没有 达到 EE 
E? 


E 时 间 内 得 到 任意 图 的 最 小 生成 树 的 算法 。 


算 稀 玻 图 的 最 小 生成 树 的 算法 仍然 没有 进展 。 自 从 20 世纪 70 


于 Kruskal 算法 以 及 将 优先 队列 应 
多 研究 者 都 将 寻找 高 效 的 优先 队列 的 实现 作为 


] 于 Prim 算法 之 后 ， 更 好 的 实现 


找到 稀 玻 网 的 高 效 的 最 小 生成 树 算法 的 关键 ， 而 其 他 一 些 人 则 研究 了 Boruvka 算法 的 一 些 变种 并 将 


它们 作为 近似 于 线性 级 别 的 稀 琉 几 
一 个 实用 的 线性 最 小 生成 树 算法 ， 它 们 甚至 已 经 


的 最 小 生成 树 算法 的 基础 。 


这 些 研究 仍然 有 希望 最 终 为 我 们 带 来 
显示 了 一 个 线性 时 间 的 随机 化 算法 的 存在 性 。 研 究 


者 距离 线性 时 间 的 目标 已 经 很 近 了 : B.Chazelle 在 1997 年 发 表 了 一 个 算法 ， 它 在 实际 应 用 中 和 线性 


时 间 的 算法 的 差距 已 经 小 到 了 无 法 区 别 的 程度 ( 尽管 可 以 证 明 它 并 不 是 线性 的 ) ， 但 它 非常 复杂 以 


至 于 无 法 实用 。 尽管 此 类 研究 得 到 的 算法 大 都 十 分 复杂 ， 其 中 一 些 的 简化 版 也 许可 以 进入 实际 应 


Se 


同时 ， 在 大 多 数 应 用 场景 中 ， 我 们 都 可 以 使 用 已 和 学 过 的 基本 方法 在 线性 时 间 内 得 到 图 的 最 小 生成 
树 ， 只 是 对 于 一 些 稀 琉 图 所 需 的 时 间 要 乘 以 logy。 
总 的 来 说 ,我 们 可 以 认为 在 实际 应 用 中 最 小 生成 树 问题 已 经 被 “解决 ”了 。 对 于 大 多 数 的 图 来 
说 ， 找 到 它 的 最 小 生成 树 的 成 本 只 比 饥 历 图 的 所 有 边 稍 高 一 点 。 除 了 极为 稀 玻 的 图 ， 这 一 点 都 能 成 
立 ,， 但 即使 是 在 这 种 情况 下 ,使 用 最 好 的 算法 所 能 得 到 的 性 能 提升 也 不 过 是 一 个 很 小 的 常数 因子 ， 
可 能 最 多 10 倍 。 人 们 已 经 在 许多 图 的 模型 中 证 明了 这 些 结论 ， 而 很 多 实践 考 则 已 经 使 用 Prim 算法 
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和 Kruskal 算法 计算 大 型 


图 答疑 


问 ”Prim 和 Kruskal 算法 
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图 练 


4.3.1 证 明 可 以 将 图 中 的 所 有 边 的 权重 都 加 上 一 个 正常 数 或 是 都 乘 以 一 个 正常 数 ， 


图 中 的 最 小 和 9 


图 的 最 小 生成 树 不 会 受到 影响 。 
4.3.2 ” 夯 出 图 4.3.16 中 的 所 有 最 小 生成 树 ( 所 有 边 的 权重 均 相 等 ) 。 


4.3.3 ”证 明 当 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 树 是 唯一 的 。 
4.3.4 证 明 或 给 出 反例 : 仅 当 加 权 无 向 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 


树 是 唯一 的 。 


E 成 树 数 十 年 之 久 了 。 


能 够 处 理 有 向 图 吗 ? 
答 不 行 ,不 可 能 。 那 是 一 个 更 加 困难 的 有 向 图 处 理 问题 ， 


叫做 最 小 树 形 图 问题 。 
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4.3.5 证 明 即 使 存在 权重 相同 的 边 贪心 算法 仍然 有 效 。 


4.3.7 如何 得 到 一 幅 加 权 图 的 最 大 生成 树 ? 
4.3.8 证 明 环 的 性 质 : 任 取 一 幅 加 权 图 中 的 一 个 环 ( 边 的 权重 各 不 相同 ) ， 环 中 权重 最 大 的 边 必然 不 属 
于 图 的 最 小 生成 树 。 
4.3.9 根据 Graph 中 的 构造 函数 ( 请 见 4.1.2.2 框 注 “Graph 数据 类 型 ”) 为 EdgeweightedGraph 实现 一 
个 相应 构造 函数 ， 从 输入 流 中 读 取 一 幅 图 。 

4.3.10 为 稠密 图 实现 EdgeweightedGraph, 使 用 邻接 矩阵 (存储 权重 的 二 维 数组 ) , 不 允许 存在 平行 边 。 

4.3.11 使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedGraph 表示 一 幅 含 有 VV 个 顶点 和 条 边 的 图 
所 需 的 内 存 。 

4.3.12 ”假设 加 权 图 中 的 所 有 边 的 权重 都 不 相同 ， 其 中 权重 最 小 的 边 一 定 属于 图 的 最 小 生成 树 吗 ? 权重 
最 大 的 边 可 能 属于 图 的 最 小 生成 树 吗 ? 任意 环 中 的 权重 最 小 边 都 属于 图 的 最 小 生成 树 吗 ? 证明 
你 的 每 个 回答 或 者 给 出 相应 的 反例 。 

4.3.13 ”给 出 一 个 反例 证 明 以 下 策略 不 一 定 能 够 找到 图 的 最 小 生成 树 : 首先 以 任意 顶点 作为 图 的 最 小 生 
成 树 ， 然 后 向 树 中 添加 天 1 条 边 ， 每 次 总 是 添加 依附 于 最 近 加 入 最 小 生成 树 的 顶点 的 所 有 边 中 “|631 
的 权重 最 小 者 。 

4.3.14 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 从 G 中 删 去 一 条 边 且 G 仍然 是 连通 的 ， 如 何在 与 成 
正比 的 时 间 内 找到 新 图 的 最 小 生成 树 。 

4.3.15 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 如 何在 与 VY 成 正比 的 时 间 内 找 
到 新 图 的 最 小 生成 树 。 

4.3.16 ”给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 编 写 一 段 程序 找到 e 的 权重 在 
什么 范围 之 内 才 会 被 加 入 最 小 生成 树 。 

4.3.17 为 EdgeWeightedGraph 类 实现 toString() 方法 。 

4.3.18 给 出 使 用 延 时 Prim 算法 、 即 时 Prim 算法 和 Kruskal 算法 在 计算 练习 4.3.6 中 的 图 的 最 小 生成 树 


a! 


过 程 中 的 轨迹 。 

4.3.19 ”假设 你 使 用 的 优先 队列 的 实现 会 维护 一 条 有 序 链表 。 在 最 坏 情况 下 ， 用 Prim 算法 和 Kruskal 算 
法 处 理 一 幅 含 有 了 个 顶点 和 E 条 边 的 加 权 图 的 时 间 增 长 数量 级 是 多 少 ? 这 种 方法 适用 于 什么 情 
况 ? 证 明 你 的 结论 。 

4.3.20 真 假 判 断 : 在 Kruskal 算法 的 执行 过 程 中 ， 最 小 生成 树 中 的 每 个 顶点 到 它 的 子 树 中 的 某 个 顶点 的 


距离 比 到 非 子 树 中 的 任意 顶点 都 近 。 证 明 你 的 结论 。 
4.3.21 为 PrimMST 类 (请 见 算法 4.7 ) 实现 edges0) 方法 。 
解答 : 


public Iterable<Edge> edgesQO) 
{ 


Bag<Edge> mst = new Bag<Edge>() ; 
for (int v = 1; v < edgeTo.length; v++) 
mst.add(edgeTo[v]); 
return mst; 
} 632 
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4.3.22 最 小 生成 森林 。 开 发 新 版 本 的 Prim 算法 和 Kruskal 算法 来 计算 一 幅 加 权 图 的 最 小 生成 森林 ， 图 
不 一 定 是 连通 的 。 使 用 4.1 节 中 连通 分 量 的 API 并 找到 每 个 连通 分 量 的 最 小 生成 树 。 

4.3.23 ”Vyssotsky 算法 。 开 发 一 种 不 断 使 用 环 的 性 质 ( 请 见 练习 4.3.8 ) 来 计算 最 小 生成 树 的 算法 : 每 次 
将 一 条 边 添 加 到 假设 的 最 小 生成 树 中 ， 如 果 形 成 了 一 个 环 则 删 去 环 中 权重 最 大 的 边 。 注 意 : 这 
个 算法 不 如 我 们 学 过 的 几 种 方法 引 人 注 意 ， 因 为 很 难 找 到 一 种 数据 结构 能 够 有 效 支持 “删除 环 
中 权重 最 大 的 边 ” 的 操作 。 

4.3.24 ”北向 删除 算法 。 实 现 以 下 计算 最 小 生成 树 的 算法 开始 时 图 含有 原 图 的 所 有 边 ， 然 后 按照 权重 
大 小 的 降序 排列 遍历 所 有 的 边 。 对 于 每 条 边 ， 如 果 删 除 它 图 仍然 是 连通 的 ， 那 就 删 掉 它 。 证 明 
这 种 方法 可 以 得 到 图 的 最 小 生成 树 。 实 现 中 加 权 边 的 比较 次 数 增长 的 数量 级 是 多 少 ? 

4.3.25 ”最 坏 情 况 生成 器 。 开 发 一 个 加 权 图 生成 器 ， 图 中 含有 VV 个 顶点 和 EE 条 边 ， 使 得 延 时 的 Prim 算法 
所 需 的 运行 时 间 是 非 线 性 的 。 对 于 即时 的 Prim 算法 回答 相同 的 问题 。 

4.3.26 关键 边 。 关 键 边 指 的 是 图 的 最 小 生成 树 中 的 某 一 条 边 ， 如 果 删 除 它 ， 新 图 的 最 小 生成 树 的 总 权重 
将 会 大 于 原 最 小 生成 树 的 总 权重 。 找 到 在 BlogE 时 间 内 找 出 图 的 关键 边 的 算法 。 注 意 : 这 个 问题 
中 边 的 权重 并 不 一 定 各 不 相同 〈 否则 最 小 生成 树 中 的 所 有 边 都 是 关键 边 ) 。 

4.3.27 动画 。 编 写 一 段 程序 将 最 小 生成 树 算法 用 动画 表现 出 来 。 用 程序 处 理 mediumEWG.txt 来 产生 类 
似 于 图 4.3.12 和 图 4.3.14 的 示意 图 。 

4.3.28 空间 最 优 的 数据 结构 。 实 现 另 一 个 版 本 的 延 时 Prim 算法 ， 在 EdgeWeightedGraph 和 MinPQ 中 

使 用 低级 数据 结构 代替 Bag 和 Edge 来 节省 空间 。 根 据 1.4 节 中 的 内 存 使 用 模型 用 一 个 下 和 五 的 


633 函数 评估 节省 的 内 存 总 量 〈 参 考 练习 4.3.11 ) 。 
4.3.29 稠密 图 。 实 现 另 一 个 版 本 的 Prim 算法 ， 即 时 (但 不 使 用 优先 队列 ) 且 能 够 在 斑 次 加 权 边 比较 之 
内 得 到 最 小 生成 树 。 


4.3.30 欧 几 里 得 加 权 图 。 修 改 你 为 练习 4136 给 出 的 解答 ， 为 平面 图 创建 一 份 API 一 Euclidean 
EdgeweightedGraph， 这 样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 

4.3.31 最 小 生成 树 的 权重 。 为 LazyPrimMST、PrimMST 和 KruskalMST 实现 weight() 方法 ， 使 用 延 时 
策略 ， 只 在 被 调 用 时 才 遍 历 最 小 生成 树 的 所 有 边 来 计算 总 权重 。 然 后 用 即时 策略 再 次 实现 这 个 
方法 ， 在 计算 最 小 生成 树 的 过 程 中 维护 一 个 动态 的 总 权重 。 

4.3.32 ”指定 的 集合 。 给 定 一 幅 连 通 的 加 权 图 G 和 一 个 边 的 集合 5S (不 含 环 ) ， 给 出 一 种 算法 得 到 含有 
中 的 所 有 边 的 最 小 加 权 生 成 树 。 

4.3.33 验证。 编写 一 个 使 用 最 小 生成 树 算法 以 及 EdgeWeightedGraph 类 的 方法 checkG) ， 使 用 以 下 根 
据 命题 J 得 到 的 最 优 切 分 条 件 来 验证 给 定 的 一 组 边 就 是 一 棵 最 小 生成 树 . 如 果 给 定 的 一 组 边 是 一 
棵 生成 树 ， 且 删除 树 中 的 任意 边 得 到 的 切 分 中 权重 最 小 的 横 切 边 正 是 被 删除 的 那 条 边 ， 则 这 组 

634 边 就 是 图 的 最 小 生成 树 。 你 的 方法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


图 实验 是 


4.3.34 ”随机 稀 正 加 权 图 。 基 于 你 为 练习 4.1.40 给 出 的 解答 编写 一 个 随机 稀疏 加 权 图 生成 吉 。 在 赋予 边 
的 权重 时 ， 定 义 一 个 随机 加 权 图 的 抽象 数据 结构 并 给 出 两 种 实现 : 一 种 按 均匀 分 布 生成 权重 ， 
另 一 种 按 高 斯 分 布 生成 权重 。 编 写 用 例 程序 ， 用 两 种 权重 分 布 和 一 组 精心 挑选 过 的 天 和 五 的 值 


4.3.35 
4.3.36 
4.3.37 


4.3.38 


4.3.39 


4.3.40 


4.3.41 


4.3.42 


4.3.43 


4.3.44 


4.3.45 
4.3.46 


4.3 最 小 生成 树 本 411 


生成 随机 的 稀 玖 加 权 图 ， 使 得 我 们 可 以 用 它 对 权重 的 各 种 分 布 进行 有 意义 的 经 验 性 测试 。 
随机 欧 几 里 得 加 权 图 。 修 改 你 为 练习 4.1.41 给 出 的 解答 ,将 每 条 边 的 权重 设 为 顶点 之 间 的 距离 。 
随机 网 格 加 权 图 。 修 改 你 为 练习 4.1.42 给 出 的 解答 ， 将 每 条 边 的 权重 设 为 0 到 1 之 间 的 随机 值 。 
真实 世界 中 的 加 权 图 。 从 网 上 找 出 一 幅 巨 型 加 权 无 向 图 一 一 可 以 是 标注 了 距离 的 地 图 ， 或 是 标 
明了 资费 的 电话 黄页 ， 或 是 航线 的 价目 表 。 编 写 一 段 程 序 RandomRea1EdgeweightedGraph， 从 
这 幅 巨 型 加 权 无 向 图 中 随机 选取 VV 个 项 点， 然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 边 来 
构造 一 幅 图 。 

测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 上段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实 验 。 陈 述 结 果 以 及 由 此 得 出 的 任 
何 结论 。 

延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 的 
性 能 差异 。 
对 比 Prim 算法 与 Kruskal 算法 。 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 与 
Kruskal 算法 的 性 能 差异 。 

减少 开销 。 运 行 实验 并 根据 经 验 判 断 练习 4.3.28 中 在 EdgeweightedGraph 类 中 使 用 原始 数据 类 
型 代替 Edge 所 带 来 的 效果 。 

最 小 生成 树 中 的 最 长 边 。 运 行 实验 并 根据 经 验 分 析 最 小 生成 树 中 最 长 边 的 长 度 以 及 图 中 不 长 于 
该 边 的 边 的 总 数 。 

切 分 。 根 据 快速 排序 的 切 分 思想 〈 而 非 使 用 优先 队列 ) 实现 一 种 新 方法 ， 检 查 Kruskal 算法 中 的 
当前 边 是 否 属 于 最 小 生成 树 。 

Boruvka 算法 。 实 现 Boruvka 算法 : 和 Kruskal 算法 类 似 ， 只 是 分 阶段 地 向 一 组 森林 中 逐渐 添加 
边 来 构造 一 棵 最 小 生成 树 。 在 每 个 阶段 中 ， 找 出 所 有 连接 两 棵 不 同 的 树 的 权重 最 小 的 边 ， 并 将 
它们 全 部 加 入 最 小 生成 树 。 为 了 避免 出 现 环 ， 假 设 所 有 边 的 权重 均 不 相同 。 提 示 : 维护 一 个 由 
顶点 索引 的 数组 来 辨别 连接 每 棵 树 和 它 最 近 的 邻居 的 边 。 记 得 用 上 union-find 数据 结构 。 

改进 的 Boruvka 算法 。 给 出 Boruvka 算法 的 另 一 种 实现 , 用 双向 环形 链表 表示 最 小 生成 树 的 子 树 ， 
使 得 子 树 可 以 被 合并 或 改名 ， 每 个 阶段 所 需 的 时 间 与 成 正比 (这样 就 不 需要 union-find 数据 结 
构 了 )。 

外 部 最 小 生成 树 。 如 果 一 幅 图 非常 大 ， 内 存 最 多 只 能 存储 VV 条 边 ， 如 何 计算 它 的 最 小 生成 树 ? 
Johnson 算法 。 使 用 一 个 4 向 堆 实 现 优先 队列 ( 请 见 练习 2.4.41 ) 。 对 于 各 种 图 的 模型 ， 找 到 4 
的 最 优 值 。 
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4.4 ”最短 路径 


也 许 最 直观 的 图 处 理 问题 就 是 你 常常 需要 使 用 某 种 地 图 软件 或 者 导航 系统 来 获取 从 一 个 地 方 到 
达 男 一 个 地 方 的 路 径 。 我 们 立即 可 以 得 到 与 之 对 应 的 图 模型 :顶点 对 应 交叉 路 口 ， 边 对 应 公路 ， 边 
的 权重 对 应 经 过 该 路 段 的 成 本 ， 可 以 是 时 间或 者 距离 。 如 果 有 单行 线 ， 那 就 意味 着 还 需要 考虑 加 权 
有 向 图 。 在 这 个 模型 中 ， 问 题 很 容易 就 可 以 被 归纳 为 : 

找到 从 一 个 顶点 到 达 另 一 个 顶点 的 成 本 最 小 的 路 径 。 

除了 这 类 问题 的 直接 应 用 ， 最 短路 径 模 型 还 适用 于 一 系列 其 他 问题 〈 请 见 表 4.4.1 ) ， 其 中 有 一 
些 看 起 来 似乎 和 图 的 处 理 毫 无 关系 。 举 个 例子 ， 我 们 会 在 本 节 的 最 后 考虑 金融 学 领域 的 套 汇 问题 。 


表 4.4.1 最 短路 径 的 典型 应 用 


应 ”用 顶 点 边 

地 图 交叉 路 公路 

网 络 路 由 器 网 络 连接 
任务 调度 任务 优先 级 限制 
套 汇 货币 汇 这 


我 们 采用 了 一 个 一 般 性 的 模型 ， 即 加 权 有 向 图 ( 它 是 4.2 节 和 4.3 节 的 模型 的 结合 ) 。 在 4.2 


就 像 在 4.3 节 中 研究 的 加 权 无 向 图 那样 。 在 加 权 有 向 图 中 ， 每 条 有 向 路 径 都 有 一 个 与 之 关联 的 
路 径 权 重 ， 它 是 路 径 中 的 所 有 边 的 权重 之 和 。 这 种 重要 的 度量 方式 使 得 我 们 能 够 将 这 个 问题 归 
纳 为 “找到 从 一 个 顶点 到 达 另 一 个 顶点 的 权重 最 小 的 有 向 路 径 ”， 也 就 是 本 节 的 主题 。 图 4.4.1 
就 是 一 个 示例 。 


、 加 权 有 向 图 
定义 。 在 一 幅 加 权 有 向 图 中 ， 从 顶点 s 到 顶点 七 的 4->5 0.35 
最 短路 径 是 所 有 从 s 到 七 的 路 径 中 的 权重 最 小 者 。 0 
5->7 0.28 re 
本 节 中 ， 我 们 将 会 学 习 解决 下 面 这 个 问题 的 经 典 和 QO 
人 Od D38 Ce) (6) 
下 0=>2 .0.26 从 顶点 0 到 顶点 
单 点 最 短路 径 。 给 定 一 幅 加 权 有 向 图 和 一 | 起 点 本 7->3 0.39 6 的 最 短路 径 
回答 “从 s 到 给 定 的 目的 顶点 v 是 否 存在 一 条 有 向 路 人 0->2 0.26 
2->7 0.34 
径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 最 小 ) 的 那 条 路 径 。” 0 7->3 0.39 
等 类 似 问 题 。 6->0 0.58 3=>6 0552 
我 们 计划 在 本 节 中 讨论 下 列 问题 : 95> O93 
口 加 权 有 向 图 的 API 和 实现 以 及 单 点 最 短路 径 的 图 4.4.1 一 幅 加 权 有 向 图 和 其 中 的 一 条 
APT， 最 短路 径 


口 解决 边 的 权重 非 负 的 最 短路 径 问 题 的 经 典 Dijkstra 算法 ; 

口 在 无 环 加 权 有 向 图 中 解决 该 问题 的 一 种 快速 算法 ， 边 的 权重 甚至 可 以 是 负 值 ; 

口 适用 于 一 般 情 况 的 经 典 Bellman-Ford 算法 ， 其 中 图 可 以 含有 环 ， 边 的 权重 也 可 以 是 负 值 。 
我 们 还 需要 算法 来 找 出 负 权 重 的 环 ， 以 及 不 含有 这 种 环 的 加 权 有 向 图 中 的 最 短路 径 。 

在 学 习 了 这 些 算 法 之 后 ， 我 们 还 会 考虑 它们 的 应 用 。 


4.4 最 短路 径 本 413 


4.4.1 最短 路径 的 性 质 
最 短路 径 问 题 的 基本 定义 是 很 简单 的 ， 但 这 种 简洁 也 隐藏 了 一 些 在 学 习 相关 的 算法 和 数据 结构 
之 前 需要 解决 的 问题 。 
口 路 径 是 有 向 的 。 最 短路 径 需要 考虑 到 各 条 边 的 方向 。 
口 权重 不 一 定 等 价 于 距离 。 几 何 上 的 直觉 可 以 帮 
助 你 理解 算法 ， 因 此 示例 中 的 顶点 都 在 平面 上 0 
目 权重 为 顶点 之 间 的 欧 几 里 得 距离 , 例如 图 44.1 
所 示 的 那 幅 有 向 图 。 但 权重 也 可 以 表示 时 间 、 
花费 或 是 某 种 完全 无 关 的 东西 ， 也 不 一 定 会 
距离 的 远近 成 正比 。 我 们 使 用 了 双关 性 的 术语 来 
强调 这 一 点 ， 指 的 是 权重 或 是 成 本 最 短 的 路 径 。 
口 并 不 是 所 有 顶点 都 是 可 达 的 。 如 果 芋 并 不 是 从 ; 
s 可 达 的 ， 那 么 就 不 存在 任何 路 径 ， 也 就 不 存 。 3 


RE 


在 s 到 ft 的 最 短路 径 。 为 了 简化 问题 ， 我 们 的 
样 图 都 是 强 连通 的 ( 每 个 顶点 从 另外 任意 一 个 
顶点 都 是 可 达 的 ) 。 
口 负 权 重 会 使 问题 更 复杂 。 我 们 暂时 假设 边 的 权 
重 都 是 正 的 (或 零 ) 。 负 权重 所 带 来 的 意外 效 
应 是 本 节 最 后 部 分 的 重点 。 
口 最 短路 径 一 般 都 是 简单 的 。 我 们 的 算法 会 忽略 5 
构成 环 的 零 权 重 边 ， 因 此 找到 的 最 短路 径 都 不 
5 
6 


(0) 


om 和 wh oe 


NWwNGA Ouoa 
VoL 
; 
Os 
Er 


会 合 有 环 。 9 
口 最 短路 径 不 一 定 是 唯一 的 。 从 一 个 顶点 到 达 另 27 ee 
一 个 顶点 的 权重 最 小 的 路 径 可 能 有 多 条 ， 我 们 Gy 一 忆 -G eS 
只 要 找到 其 中 一 条 即 可 。 OPO Sy 
吕 可 能 存在 平行 边 和 自 环 : 平行 边 中 的 权重 最 小 WE oy 
者 才 会 被 选中 ,最 短路 径 也 不 可 能 包含 自 环 除 ole>a zj 
非 自 环 的 权重 为 零 ， 但 我 们 会 忽略 它 ) 。 在 正 3 引 EGG@ 
文中 ,为 了 避免 歧义 我 们 隐 式 地 假设 平行 边 不 3 引 > 一 
存在 ,用 v 一 w 来 表示 从 v 到 w 的 边 ， 本 节 的 。 站， 而 一 们 a 
代码 处 理 它们 并 没有 困难 。 715->7 0|6->0 
最 短路 径 树 3 
我 们 的 重点 是 单 点 最 短路 径 问题 ， 其 中 给 出 了 起 Ce J 
点 s， 计 算 的 结果 是 一 棵 最 短路 径 村 (SPT)， 它 包含 了 局 GE 局 
顶点 s 到 所 有 可 达 的 顶点 的 最 短路 径 。 如 图 442 所 示 。 oleo ?| :> 
EGG 
定义 。 给 定 一 柱 加 权 有 向 图 和 一个 顶点 5， 以 s 为 :3 A 
起 点 的 一 标 最 短路 径 树 是 图 的 一 幅 子 图 ， 它 包含 s 6|3-26 @ 
7 


和 从 s 可 达 的 所 有 顶点 。 这 棵 有 向 树 的 根 结 点 为 8， 
树 的 每 条 路 径 都 是 有 向 图 中 的 一 条 最 短路 径 。 


| 


4.4.2 ”最 短路 径 树 ( 另 见 彩 插 ) 


A 
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这 样 


在 两 条 长 度 相 等 的 路 径 。 如 果 出 现 这 种 情况 ， 可 以 删除 
到 从 起 点 到 每 个 顶点 都 具有 一 条 路 径 相 
图 4.4.3 ) 。 通 过 构造 这 棵 最 短路 径 树 ， 可 以 为 用 例 


的 最 后 一 
连 〈 即 一 棵 树 ， 请 见 


章 


图 


-4 


条 边 。 如 此 这 般 ， 


一 棵 树 是 一 定 存在 的 : 一 般 来 说 ， 从 s 到 一 个 顶点 有 可 能 存 


其 中 一 条 路 径 


提供 从 s 到 图 中 任何 顶点 的 最 短路 径 ， 表 示 方 法 为 一 组 指向 父 结 点 的 链 
接 ， 和 4.1 市 中 表示 路 径 的 方法 完全 一 样 。 


从 起 点 指出 的 边 


557| 4.4.2 ”加权 有 向 图 的 数据 结构 
2 有 向 边 的 数据 结构 比 无 向 边 更 加 简单 ， 因 为 有 向 边 只 有 一 个 方向 。 。 图 443 一 哥 念 有 有 250 
与 Edge 类 中 的 either() 和 other 方法 不 同 ， 这 里 定义 了 from() 和 个 顶点 的 最 短 
to0) 方法 ， 请 见 表 4.4.2。 路 径 树 
表 4.4.2 加权 有 向 边 的 API 
public class DirectedEdge 
DirectedEdge(int v, int w, double weight) 
double weight() 边 的 权重 
int from() 指出 这 条 边 的 顶点 
int to0) 这 条 边 指向 的 顶点 
String toString() 对 象 的 字符 串 表示 
从 4.1 节 到 4.3 节 ， 从 Graph 类 过 渡 到 了 EdgeweightedGraph 类 。 与 以 前 一 样 ， 我 们 在 这 里 添 
加 了 edges 0) 方法 并 使 用 DirectedEdge 类 代替 了 整 型 变量 ， 请 见 表 4.4.3。 
表 4.4.3 加权 有 向 图 的 API 
public class EdgeWeightedDigraph 
EdgeweightedDigraphCint V) 含有 V 个 顶点 的 空 有 向 图 
EdgeWeightedDigraph(In in) 从 输入 流 中 读 取 图 的 构造 函数 
int VO 顶点 总 数 
int EQ 边 的 总 数 
void addEdge (DirectedEdge e) 将 @ 添加 到 该 有 向 图 中 
Iterable<DirectedEdge> adj(Cint v) 从 v 指出 的 边 
Iterable<DirectedEdge> edges() 该 有 向 图 中 的 所 有 边 
String toString() 对 象 的 字符 串 表 示 
这 两 份 API 的 实现 请 见 后 面 的 框 注 “加 权 有 向 边 的 数据 类 型 ”和 “加 权 有 向 图 的 数据 类 型 ”。 
它们 很 自然 地 扩展 了 4.2 节 和 4.3 节 中 相应 的 类 的 实现 。Digraph 类 中 的 邻接 表 使 用 的 是 整数 ， 在 
EdgeWeightedDigraph 的 邻接 表 中 使 用 的 是 DirectedEdge 对 象 。 与 从 4.1 市 到 4.2 节 中 Graph 类 
到 Digraph 类 的 转换 一 样 ， 从 4.3 节 的 EdgeWeightedGraph 类 到 本 节 中 的 EdgeWeightedDigraph 
类 的 转换 代码 也 变 得 简单 了 ， 因 为 在 数据 结构 中 每 条 边 只 会 出 现 一 次 。 
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加 权 有 向 边 的 数据 类 型 
public class DirectedEdge 
二 
private final int v; // 边 的 起 点 
private final int w; // 边 的 终点 
private final double weight; // 边 的 权重 


} 


public DirectedEdge(int v, int w, double weight) 
{ 


thissvV = V; 

this.w = w; 

this.weight = weight; 
} 


public double weight() 
{ return weight; 了 


public int from() 
{ return v; 了 


public int toO) 
{ return w; +} 


public String toString() 
{ return String.format("%d->%d %.2f", v, w, weight); +} 


DirectedEdge 类 的 实现 比 4.3 节 中 无 向 边 的 数据 类 型 Edge 类 ( 请 见 4.3.2 节 框 注 “ 带 权重 的 边 的 
数据 类 型 ”) 更 简单 ， 因 为 边 的 两 个 端点 是 有 区 别 的 。 用 例 可 以 使 用 惯用 代码 int v=e.to()，w=e. 
from() ; 来 访问 DirectedEdge 的 两 个 端点 。 
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{ 


加 权 有 向 图 的 数据 类 型 
public class EdgeWeightedDigraph 
private final int V; // 顶点 总 数 
private int E; // 边 的 总 数 


private Bag<DirectedEdge>[] adj;  // 和 邻接 表 


public EdgeWeightedDigraph(int V) 
{ 
this.V = Vi 
this.E = 0; 
adj = (Bag<DirectedEdge>[]) new Bag[V] ; 
for (int v = 0; v < V; Vv++) 
adj[v] = new Bag<DirectedEdge>Q); 
} 


public EdgeWeightedDigraph(In in) 
// 请 见 练 习 4.4.2 


public int VO { return V; } 
public int EC) { return E; } 
public void addEdge(DirectedEdge e) 
{ 

adj[e.from()].add(Ce) ; 

E++; 


3 
public Iterable<DirectedEdge> adj(int v) 
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{ return adj[v]; } 


public Iterable<DirectedEdge> edges() 


{ 
Bag<DirectedEdge> bag = new Bag<DirectedEdge>(); 
for (Cint v = 0; Vv < V; Vv++) 
for (DirectedEdge e : adj[Lv]) 
bag.add(e); 
return bag; 
} 


} 
EdgeWeightedDigraph 类 的 实现 混合 了 EdgeWeightedGraph 类 和 Digraph 类 。 它 维护 了 一 个 


由 顶 


点 索引 的 Bag 对 象 的 数组 ，Bag 对 象 的 内 容 为 DirectedEdge 对 象 。 与 Digraph 类 一 样 ， 每 条 边 在 邻接 


表 中 只 会 出 现 一 次 : 如 果 一 条 边 从 v 指向 w， 那 么 它 只 会 出 现在 v 的 邻接 链表 中 。 这 个 类 可 以 处 理 
和 平行 边 。toString 0) 方法 的 实现 留 作 练习 4.4.2。 


自 环 


图 4.4.4 所 示 的 是 用 EdgeweightedDigraph 表示 左 侧 的 加 权 有 向 图 时 所 构造 的 数据 结构 ， 在 构造 


的 过 程 中 边 被 按照 顺序 一 条 一 条 地 加 入 图 中 。 与 以 前 一 样 ， 我 们 使 用 了 Bag 类 来 表示 邻接 表 并 在 图 


屋 


按照 标准 方式 将 它们 表示 为 链表 。 与 4.2 节 中 普通 的 有 向 图 一 样 ,每 条 边 在 数据 结构 中 都 只 出 现 了 一 次 。 


tinyEWD. txt ~ 
Re 012[.26H>|0[4|.38 
A—E 
Pe , ~[1T31.29 
45 0.35 5 
5 4 0.35 
0 
47 0.37 ~[2171.34 : 
5 7 .028 1 2 
7 5 0.28 2 人 
~ 
5 1 0.32 3 一 一 人 1 5.52 | DirectedEdge 
04 0.38 对 象 的 引用 
0 2 0.26 |、[4[z[.37F[4[5[.35] 
7 3 0.39 5 | 
1 3 0.29 I < 
2 7 0.34 人 11.32|—>[5171.28|—[5|4].35| 
62 0.40 
3 6 0.52 < 
EN 6|4|.93 上 -| 6|0|.58 上 -|6|21.40| 
6 4 0.93 
17[31.39H-|7[51.28 


图 4.4.4 加 权 有 向 图 的 表示 


4.4.2.1 ”最短 路径 的 API 


对 于 最 短路 径 的 API, 我 们 的 设计 思路 与 4.1 节 中 的 DepthFirstPaths 和 BreadthFirstPaths 


的 API 是 一 样 的 。 算 法 将 会 实现 表 4.4.4 所 示 的 API 来 为 用 例 提 供 图 中 的 最 短路 径 和 其 长 度 。 


表 4.4.4 最短 路径 的 API 
public class SP 


SpP(EdgeWeightedDigraph G, int s) 构造 函数 


double distToCint v) 从 顶点 s 到 v 的 距离 ， 如 果 不 存在 
则 路 径 为 无 穷 大 
boolean hasPathTo(int v) 是 否 存 在 从 顶点 s 到 v 的 路 径 
Iterable<DirectedEdge> pathTo(int v) 从 顶点 s 到 v 的 路 径 ， 如 果 不 存在 


则 为 nul11 
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构造 函数 会 创建 最 短路 径 树 
a 机 和 public static void main(String[] args) 
并 计算 最 短路 径 的 长 度 ， 其 他 查 了 


询 方法 则 会 使 用 这 些 数据 结构 为 EdgeweightedDigraph Qi 
三 本 、 G = new EdgeWeightedDigraph(new In(args[0])); 
j 例 提供 路 径 的 长 度 以 及 路 径 的 int s = Integer.parseInt(args[1]); 
Iterable 对 象 。 Spespe ENWESRUG ES 
4.4.2.2 ”测试 用 例 Tia me Ee ss OE Re 2 GMO TED 
A 
右 侧 框 注 是 一 个 简单 测试 用 StdOUue pliner to 
例 。 它 接受 一 个 输入 流 和 一 个 起 Stugutcspnt 2 sp dstloG 
、 A Co if (sp.hasPathTo(t)) 
点 作为 命令 行 参数 ， 从 输入 流 中 for (DirectedEdge e : sp.pathTo(t)) 
读 取 加 权 有 向 图 ， 根 据 起 点 来 计 So 
a StdOut.print1nO; 
算 有 向 图 的 最 短路 径 树 并 打印 从 Di 
起 点 到 其 他 所 有 顶点 的 最 短路 径 。 } 


我 们 约定 ， 所 有 的 最 短路 径 实 现 都 。 % java SP tinyEWD.txt 0 


使 用 该 测试 用 例 进行 测试 .图 444 0 to 1 ee 0->4 0.38 4->5 0.35 5->1 0.32 

中 的 tinyEWD.txt 文件 定义 了 一 幅 Oto C0826 0 2 看 0E26 

较 小 的 示例 有 向 图 中 所 有 的 边 和 0t40389 02403 

权重 ， 会 用 来 显示 最 短路 径 算法 0 to 5 (0.73): 0->4 0.38 4->5 0.35 

的 详细 轨迹 。 它 的 文件 格式 与 最 ps 6 (1.51): 0->2 0.26 2->7 0.34 7->3 0.39 3->6 = 
小 生成 树 算法 中 使 用 的 样 图 相同 : 0 to 7 (0.60): 0->2 0.26 2->7 0.34 2 
首先 是 顶点 总 数 广 和 边 的 总 数 ， DS 和 > 
随后 是 行 数据 ， 每 一 行为 两 个 最 短路 径 的 测试 用 例 

顶点 的 索引 和 一 个 权重 。 在 本 书 的 网 站 上 ， 你 可 以 找到 一 些 定义 了 更 大 的 加 权 有 向 图 的 文件 ， 包 括 
mediumEWG.txt。 它 定义 了 一 幅 含有 250 个 顶点 的 加 权 有 向 图 , 如 图 4.4.3 所 示 。 在 这 幅 图 的 图 像 中 ， 

每 一 行 数据 都 表示 方向 相反 的 两 条 边 ， 因 此 这 个 文件 所 含有 的 边 数 是 在 学 习 最 小 生成 树 时 所 使 用 的 
mediumEWG.txt 的 2 倍 。 在 最 短路 径 树 的 图 像 中 ， 每 一 行 都 表示 一 条 从 项 点 指出 的 有 向 边 。 


4.4.2.3 ”最 短路 径 的 数据 结构 
表示 最 短路 径 所 需 的 数据 结构 很 简单 ， 如 图 4.4.5 所 示 。 
口 最 短路 径 树 中 的 边 。 和 深度 优先 搜索 、 edgeTo[] distTo[] 
0 


广度 优先 搜索 和 Prim 算法 一 样 , 合用 一 GO 一 G 了 | $1 0.32 1.0s 
个 由 顶点 索引 的 DirectedEdge 对 象 的 人 Fed 让 73 0 0.97 
父 链接 数组 edgeTo[] ， 其 中 edgeTo[v] (9) He 
的 值 为 树 中 连接 v 和 它 的 父 结 点 的 边 ( 也 。 多 (©) 3260 


是 从 s 到 v 的 最 短路 径 上 的 最 后 一 条 边 )。 
口 到 达 起 点 的 距离 。 我 们 需要 一 个 由 顶点 

索引 的 数组 distTo[] ， 其 中 distTo[v] 为 从 s 到 v 的 已 知 最 短路 径 的 长 度 。 
我 们 约定 ，edgeTo[s] 的 值 为 nul11，distTo[s] 的 值 为 0。 同 时 还 约定 ， 从 起 点 到 不 可 达 的 
顶点 的 距离 均 为 Double.POSITIVE_INFINITY。 和 以 前 一 样 ， 我 们 会 实现 使 用 这 些 数据 结构 的 数据 
类 型 并 支持 用 例 调 用 方法 来 查询 最 短路 径 和 它们 的 长 度 。 
4.4.2.4 边 的 松弛 

我 们 的 最 短路 径 API 的 实现 都 基于 一 个 被 称 为 松弛 (relaxation ) 的 简单 操作 。 一 开始 我 们 只 


图 4.4.5 “最 短路 径 的 数据 结构 
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知道 图 的 边 和 它们 的 权重 ，distTo[] 8 
让 加 有 起 点 所 对 应 的 元 素 的 值 为 De void relax(DirectedEdge e) 
其 余 元 素 的 值 均 被 初始 化 为 Double. a i 
ee if (distTo[w] > distTo[v] + e.weight()) 
POSITIVE_INFINITY。 随 着 算法 的 执 { 
行 ， 它 将 起 点 到 其 他 顶点 的 最 短路 径 信 二 = distTo[v] + e.weight(); 
edgeTo[w] = e; 
息 存 人 了 edgeTo[] 和 distTo[] 数组 } 
中 。 在 遇 到 新 的 边 时 ， 通 过 更 新 这 些 信 } 


息 就 可 以 得 到 新 的 最 短路 径 。 特 别 是 ， 
我 们 在 其 中 会 用 到 边 的 松弛 技术 ， 定 义 
如 下 : 放松 边 v 一 w 意 味 着 检查 从 s 到 w 的 最 短路 径 是 否 是 先 从 s 到 v， 然 后 再 由 v 到 w。 如 果 是 ， 
则 根据 这 个 情况 更 新 数据 结构 的 内 容 。 上 边框 注 中 的 代码 实现 了 这 个 操作 。 由 v 到 达 w 的 最 短路 径 
是 distTo[v] 与 e.weight() 之 和 一 一 如 果 这 个 值 不 小 于 distTo[w], 称 这 条 边 失效 了 并 将 它 忽略 ; 
如 果 这 个 值 更 小 ， 就 更 新 数据 。 

图 44.6 显示 的 是 边 的 放松 操作 之 后 可 能 出 现 的 两 种 情况 。 一 种 情况 是 边 失 效 〈 左边 的 例子 ) ,不 
更 新 任何 数据 ; 另 一 种 情况 是 v 一 w 就 是 到 达 w 的 最 短路 径 ( 右边 的 例子 ) ， 这 将 会 更 新 edgeTo[w] 
和 distTo[w] (这 可 能 会 使 另 一 些 边 失效 ， 但 也 可 能 产生 一 些 新 的 有 效 边 ) 。 松 弛 这 个 术语 来 自 于 用 


边 的 松弛 


一 根 橡皮 筋 沿 着 连接 两 个 顶点 的 路 径 紧 紧 展开 的 比喻 ,放松 一 条 边 就 类 似 于 将 橡皮 筋 转移 到 一 条 更 短 
的 路 径 上 ， 从 而 缓解 了 橡皮 筋 的 压力 。 如 果 relaxQO 〇 改变 了 和 边 e 相关 的 顶点 的 distTo[e.toGO] 和 


edgeTo[e.toO] 的 值 ， 就 称 e 的 放松 是 成 功 的 。 


UN 用 distTo[Lv] 


v 一 Ww 是 有 效 的 


> % vo 的 权 重 为 1.3 a ” AS 
2 O—>O— >® 3.3 了 Wr 
在 edgeTo[] i 一 
中 的 黑色 边 O DD 
Dp 不 更 新 数据 ep edgeTo [w] 
9 OO 下 


了 四 4.4 
CG 癌 Es 0 下、 不 再 存放 于 最 


短路 径 树 中 


图 4.4.6 边 的 松弛 的 两 种 情况 ( 另 见 彩 插 ) 
4.4.2.5 ”顶点 的 松弛 

实际 上 ， 实 现 会 放松 从 一 个 给 定 顶 点 指出 的 所 有 边 ， 如 下 页 框 注 中 《被 重 载 的 ) relaxQ 的 实 
现 所 示 。 注 意 ， 从 任意 distTo[v] 为 有 限 值 的 顶点 v 指向 任意 distT[] 为 无 穷 的 顶点 的 边 都 是 有 
效 的 。 如 果 v 被 放松 ， 那 么 这 些 有 效 边 都 会 被 添加 到 edgeTo[] 中 。 某 条 从 起 点 指出 的 边 将 会 是 第 
一 条 被 加 入 edgeTo[] 中 的 边 。 算 法 会 谨慎 选择 顶点， 使 得 每 次 顶点 松弛 操作 都 能 得 出 到 达 某 个 项 
点 的 更 短 的 路 径 ， 最 后 逐渐 找 出 到 达 每 个 顶点 的 最 短路 径 。 如 图 4.4.7 所 示 。 


private void relax(EdgeWeightedDigraph G, int V) 
世 
for (DirectedEdge e : 
{ 
int Ww = @.to0O; 
if (distTo[w] > distTo[v] + e.weight()) 
{ 
distTo[w] 
edgeTo[w] 


G.adj(v)) 


distTo[v] + e.weight(); 
e; 


顶点 的 松弛 


4.4.2.6 ”为 用 例 准备 的 查询 方法 


与 4.1 节 (以 及 练习 4.1.13 ) 中 实现 路 径 查 找 的 API 相似 


持 pathTo()、hasPathTo() 和 distTo() 查询 方法 ， 如 下 方 
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放松 前 


4 
GO 
放松 后 


DRR 
4 | 刚 失效 
O 


O 
刚刚 天 
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图 4.4.7 顶点 的 松弛 


，edgeTo[] 和 distTo[] 数组 直接 支 
匡 注 所 示 。 默 认 所 有 最 短路 径 的 实现 


都 包含 这 段 代码 。 前 面 已 经 提 到 过 ， 只 有 在 v 是 从 s 可 达 的 情况 下 ，distTo[v] 才 是 有 意义 的 ， 


还 已 经 约定 ， 对 于 从 s 不 可 达 的 顶点 ，distTo0 方法 都 应 该 
distTo[] 中 的 所 有 元 素 都 初始 化 为 Double.POSITIVE_ 
INFINITY, distTo[s] 则 为 0。 最 短路 径 算法 会 将 从 起 点 

可 达 的 顶点 v 的 distTo[v] 设 为 一 个 有 限 值 ， 这 样 就 不 

必 再 用 marked[] 数组 来 在 图 的 搜索 中 标记 可 达 的 顶点 ， 

而 是 通过 检测 distTo[v] 是 否 为 Double.POSITIVE_ 
INFINITY 来 实现 hasPathTo(v)。 对 于 pathTo0) 方法 ， 
我 们 约定 如 果 v 不 是 从 起 点 可 达 的 则 返回 nu11， 如 果 v 
等 于 起 点 则 返回 一 条 不 含 任何 边 的 路 径 。 对 于 可 达 的 顶 
点 ， 我 们 会 遍历 最 短路 径 树 并 返回 栈 上 的 所 有 边 ， 这 和 
DepthFirstPaths 以 及 BreadthFirstPaths 的 做 法 完全 
一 样 。 图 4.4.8 显示 了 在 示例 中 路 径 0 一 2 一 7 一 3 一 6 
是 如 何 被 找到 的 。 


public double distToCint v) 
{ return distTo[v]; 上 


public boolean hasPathToCint v) 


{ return distTo[v] < Double.POSITIVE_INFINITY ; 
public Iterable<DirectedEdge> pathTo(int v) 


if (!hasPathTo(v)) return null; 


返回 无 穷 大 。 在 实现 这 个 约定 时 ,将 
最 短路 佐 树 ”Ye79[ 
©@, G3) 1 | 5->1 
2 0->2 
(7) (2 ) 3 | 7->3 
(0) 4 0->4 
5 4->5 
(6) 6 | 3->6 
pathTo(C6) 7 
e 路 径 
3->6 
7->3 3->6 
2->7 7->3 3->6 
0->2 2->7 7->3 3->6 
null| 0->2 2->7 7->3 3->6 


BS 


4.4.8 ”pathToQ 方法 的 计算 轨迹 


: 


Stack<DirectedEdge> path = new 9Stack<DirectedEdge>() ; 


for (DirectedEdge e 
path .push(e); 
return path; 


edgeTo[v]; e != null; e 


最 短路 径 API 中 的 查询 方法 


edgeTo[e.from()]) 
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4.4.3 ”最 短路 径 算法 的 理论 基础 

边 的 放松 操作 是 一 项 非常 容易 实现 的 重要 操作 ， 它 是 实现 最 短路 径 算 法 的 基础 。 同 时 ， 它 也 是 
晶 解 这 个 算法 的 理论 基础 并 使 我 们 能 够 完整 地 证 明 算 法 的 正确 性 。 
4.4.3.1 最 优 性 条 件 

以 下 命题 证 明了 判断 路 径 是 否 为 最 短路 径 的 全 局 条 件 与 在 放松 一 条 边 时 所 检测 的 局 部 条 件 是 等 
价 的 。 


AH 


命题 P (最 短路 径 的 最 优 性 条 件 ) 。 今 G 为 一 幅 加 权 有 向 图 ， 顶点 s 是 G 中 的 起 点 ， 
distTo[] 是 一 个 由 顶点 索引 的 数组 ， 保 存 的 是 G 中 路 径 的 长 度 。 对 于 从 s 可 达 的 所 有 顶点 v， 
distTo[v] 的 值 是 从 s 到 v 的 某 条 路 径 的 长 度 ， 对 于 从 s 不 可 达 的 所 有 顶点 v， 该 值 为 无 穷 大 。 
当 目 仅 当 对 于 从 v 到 w 的 任意 一 条 边 e， 这 些 值 都 满足 distTo[w]<=distTo[v]+e.weight() 
时 ( 换 旬 话说 ,不 存在 有 效 边 时 ) ， 它 们 是 最 短路 径 的 长 度 。 

证 明 。 假 设 distTo[w] 是 从 s 到 w 的 最 短路 径 。 如 果 对 于 某 条 从 v 到 Ww 的 边 e 有 distTo[w]> 
distTo[v]+e.weight()， 那 么 从 s 到 w (经 过 v) 且 经 过 e 的 路 径 的 长 度 必 然 小 于 
distTo[w]， 矛盾。 因此 最 优 性 条 件 是 必要 的 。 

要 证 明 最 优 性 条 件 是 充分 的 ， 假 设 w 是 从 s 可 达 的 且 s=vo 一 Vi 一 V,... 一 VW 是 从 s 到 w 的 
最 短路 径 ， 其 权重 为 OPTsw。 对 于 工 到 K 之 间 的 7， 令 e; 表 示 Vii 到 vi 的 边 。 根 据 最 优 性 条 件 ， 
可 以 得 到 以 下 不 等 式 : 


distTo[w] = distTo[v«] <= distTo[vc] + ex.weight() 
distTo[Vvi1] <= distTo[Vvi2] + exi:weight() 


distTo[v,;] <= distTo[vi] + e,.weight() 
distTo[vi] <= distTol[s] + ei.weight() 


综合 这 些 不 等 式 并 去 掉 distTo[s]=0.0， 得到: 


distTo[w] <= ei.weight() + ... + ex.weight() = OPTs,. 
现在 ，distTo[w] 为 从 s 到 w 的 茶 条 边 的 长 度 ， 因 此 它 不 可 能 比 最 短路 径 更 短 。 所 以 我 们 有 以 
下 不 等 式 : 
OB < oanstulolw< Opn 
550| 上 县 等 号 必然 成 立 。 
4.4.3.2 ”验证 


命题 P 的 一 个 重要 的 实际 应 用 是 最 短路 径 的 验证 。 无 论 一 种 算法 会 如 何 计算 distTo[] ， 都 只 
需要 遍历 图 中 的 所 有 边 一 遍 并 检查 最 优 性 条 件 是 否 满 足 就 能 够 知道 该 数组 中 的 值 是 否 是 最 短路 径 的 
长 度 。 最 短路 径 的 算法 可 能 会 很 复杂 ， 因 此 能 够 快速 验证 计算 的 结果 就 变 得 很 重要 。 为 此 ， 我 们 在 
本 书 的 网 站 上 的 实现 中 包含 了 一 个 checkQ 〇 方法 。 该 方法 还 会 检查 edgeTo[] 指明 的 路 径 并 验证 它 
与 distTo[] 是 否 一 致 。 
4.4.3.3 ”通用 算法 

由 最 优 性 条 件 马上 可 以 得 到 一 个 能 够 涵盖 已 经 学 习 过 的 所 有 最 短路 径 算 法 的 通用 算法 。 现 在 ， 
我 们 暂时 只 研究 非 负 权重 的 情况 。 
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命题 Q (通用 最 短路 径 算法 ) 。 将 distTo[s] 初始 化 为 0, 其 他 distTo[] 元 素 初 始 化 为 无 穷 大 ， 
继续 如 下 操作 : 

放松 G 中 的 任意 边 ， 直 到 不 存在 有 效 边 为 止 。 
对 于 任意 从 s 可 达 的 顶点 w， 在 进行 这 些 操作 之 后 ，distTo[w] 的 值 即 为 从 s 到 w 的 最 短路 径 
的 长 度 ( 且 edgeTo[w] 的 值 即 为 该 路 径 上 的 最 后 一 条 边 ) 。 


证 明 。 放 松 边 v 一 w 必 然 会 将 jstTo[w] 的 值 设 为 从 s 到 ww 的 某 条 路 径 的 长 度 ( 且 将 
edgeTo[w] 设 为 该 路 径 上 的 最 后 一 条 边 ) 。 对 于 从 s 可 达 的 任意 顶 卡 Ww， 只 要 distTo[w] 仍然 
是 无 穷 大 ， 到 达 w 的 最 短路 径 上 的 某 条 边 肯 定 仍 然 是 有 效 的 ， 因 此 算法 的 操作 会 不 断 继 续 ， 直 
到 由 s 可 达 的 每 个 顶点 的 distTo[] 值 均 变 为 到 达 该 顶点 的 某 条 路 径 的 长 度 。 对 于 已 经 找到 最 
短路 径 的 任意 顶点 V， 在 算法 的 计算 过 程 中 distTo[v] 的 值 都 是 从 s 到 v 的 某 条 (简单 ) 路 径 
的 长 度 且 必 然 是 单调 递减 的 。 因 此 ， 它 递减 的 次 数 必然 是 有 限 的 (每 切换 一 条 s 到 v 简单 路 径 
就 递减 一 次 ) 。 当 不 存在 有 效 边 的 时 候 ， 命题 P 就 成 立 了 。 


将 最 优 性 条 件 和 通用 算法 放 在 一 起 学 习 的 关键 原因 是 ， 通 用 算法 并 没有 指定 边 的 放松 顺序 。 因 
此 ， 要 证 明 这 些 算法 都 能 通过 计算 得 到 最 短路 径 ， 只 需 证 明 它们 都 会 放松 所 有 的 边 直 到 所 有 边 都 失 
效 即 可 。 


4.4.4 ”Dijkstra 算法 

在 43 节 中 ， 我 们 讨论 了 寻找 加 权 无 向 图 中 的 最 小 生成 树 的 Prim 算法 : 构造 最 小 生成 树 的 每 一 步 
都 向 这 棵 树 中 添加 一 条 新 的 边 。Dijkstra 算法 采用 了 类 似 的 方法 来 计算 最 短路 径 树 。 首 先 将 distTo[s] 
初始 化 为 0, distTo[] 中 的 其 他 元 素 初 始 化 为 正 无 穷 。 然 后 将 distTo[] 最 小 的 非 树 顶 点 放松 并 加 入 树 
中 ， 如 此 这 般 ， 直 到 所 有 的 顶点 都 在 树 中 或 者 所 有 的 非 树 顶点 的 distTo[] 值 均 为 无 穷 大 。 


命题 R。Dijkstra 算法 能 够 解决 边 权 重 非 负 的 加 权 有 向 图 的 单 起 点 最 短路 径 问题 。 


证 明 。 如 果 v 是 从 起 点 可 达 的 ， 那 么 所 有 Vv 一 WwW 的 边 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 必 有 
distTo[w]<=distTo[v]+e.weight()。 该 不 等 式 在 算法 结束 前 都 会 成 立 ， 因 此 distTo[w] 只 
会 变 小 ( 放松 操作 只 会 减 小 distTo[] 的 值 ) 而 distTo[v] 则 不 会 改变 (因为 边 的 权重 非 负 且 
在 每 一 步 中 算法 都 会 选择 distTo[] 最 小 的 顶点 ， 之 后 的 放松 操作 不 可 能 使 任何 distTo[] 的 
值 小 于 distTo[v] ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 均 被 添加 到 树 中 之 后 ， 最 短路 径 的 最 优 性 
条 件 成 立 ， 即 命题 P 成 立 。 


4.4.4.1 数据 结构 

要 实现 Dijkstra 算法 ,除了 distTo[] 和 edgeTo[] 数组 之 外 还 需要 一 条 索引 优先 队列 pq， 以 
保存 需要 被 放松 的 顶点 并 确认 下 一 个 被 放松 的 顶点 。 我 们 知道 IndexMinPQ 可 以 将 索引 和 键 ( 优先 级 ) 
关联 起 来 并 且 可 以 删除 并 返回 优先 级 最 低 的 索引 。 在 这 里 ， 只 要 将 顶点 v 和 distTo[v] 关联 起 来 
就 立即 可 以 得 到 Dijkstra 算法 的 实现 。 另 外 ， 稍 加 推导 也 可 以 知道 ，edgeTo[] 中 的 元 素 所 对 应 的 可 
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4.4.4.2 ” 换 一 个 角度 看 问题 


根据 算法 的 证 明 ， 我 们 可 以 从 另 一 个 角度 来 最 短路 径 权 
理解 它 ， 如 图 4.4.9 所 示 ， 已 知 树 结 点 所 对 应 的 六 i 


distTo[] 值 均 为 最 短路 径 的 长 度 。 对 于 优先 队列 
中 的 任意 顶点 w，distTo[w] 是 从 s 到 w 的 最 短 


路 径 的 长 度 ， 该 路 径 上 的 中 间 顶 点 在 树 中 且 路 径 抽 
结束 于 横 切 边 edgeTo[w] 。 优 先 级 最 小 的 顶点 的 Xx 

distTo[] 值 就 是 最 短路 径 的 权重 ， 它 不 会 小 于 已 0 
经 被 放松 过 的 任意 顶点 的 最 短路 径 的 权重 ， 也 不 一 条 横 切 边 必然 在 
会 大 于 还 未 被 放松 过 的 任意 顶点 的 最 短路 径 的 权 最 得 小径 树 中 
重 。 这 个 顶点 就 是 下 一 个 要 被 放松 的 顶点 。 所 有 


从 s 可 达 的 顶点 都 会 按照 最 短路 径 的 权重 顺序 被 。 图 4.4.9 Dijkstra 的 最 短路 径 算 法 ( 另 见 彩 插 ) 
放松 。 


图 4.4.10 是 算法 处 理 样 图 tinyEWD.txt 时 的 轨迹 。 在 这 个 例子 中 ， 算 法 构造 最 短路 径 树 的 过 程 
如 下 所 述 。 

口 将 顶点 0 添加 到 树 中 ， 将 顶点 2 和 4 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 2， 将 0 一 2 添加 到 树 中 ， 将 顶点 7 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 4， 将 0 一 4 添加 到 树 中 ， 将 顶点 5 加 入 优先 队列 ， 边 4 一 7 失效 。 

口 从 优先 队列 中 删除 项 点 7， 将 2 一 7 添加 到 树 中 ， 将 顶点 3 加 入 优先 队列 ， 边 7 一 5 失效 。 

口 从 优先 队列 中 删除 顶点 5， 将 4 一 5 添加 到 树 中 ， 将 顶点 1 加 入 优先 队列 ， 边 5 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 3， 将 7 一 3 添加 到 树 中 ， 将 顶点 6 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 1， 将 5 一 1 添加 到 树 中 ， 边 1 一 3 失效 。 

口 从 优先 队列 中 删除 顶点 6， 将 3 一 6 添加 到 树 中 。 

算法 按照 顶点 到 起 点 的 最 短路 径 的 长 度 的 增 序 将 它们 添加 到 最 短路 径 树 中 ， 如 图 4.4.10 右 侧 的 
红色 箭头 所 示 。 


Dykstra 算法 的 实现 DijkstraSP (算法 4.9 ) 只 是 用 代码 复述 了 算法 的 描述 ， 还 在 relaxQ 〇 ， 方 
法 中 添加 了 一 行 语句 来 处 理 以 下 两 种 情况 : 要 么 边 的 to() 得 到 的 顶点 还 不 在 优先 队列 中 ， 此 时 需 
要 使 用 insert0 方法 将 它 加 入 到 优先 队列 中 ; 要 么 它 已 经 在 优先 队列 中 且 优 先 级 需要 被 降低 ， 此 
时 可 以 用 change 0) 方法 实现 。 


命题 R〈 续 ) 。 在 一 幅 含有 严 个 顶点 和 瑟 条 边 的 加 权 有 向 图 中 ， 使 用 Dijkstra 算法 计算 根 结 点 
为 给 定 起 点 的 最 短路 径 树 所 需 的 空间 与 这 成 正比 ， 时 间 与 BlogV 成 正比 (最 坏 情况 下 )。 


证 明 。 同 Prim 算法 的 证 明 (请 见 命题 N ) 


如 前 所 述 ， 思 考 Dijkstra 算法 的 另 一 种 方式 就 是 将 它 和 4.3 节 的 Prim 算法 (算法 4.7 ) 相 比较 。 
两 种 算法 都 会 用 添加 边 的 方式 构造 一 棵 树 : Prim 算法 每 次 添加 的 都 是 离 树 最 近 的 非 树 顶点 ，Dijkstra 
算法 每 次 添加 的 都 是 离 起 点 最 近 的 非 树 顶 点 。 它 们 都 不 需要 marked[] 数组 ， 因 为 条 件 Imarked[w] 
等 价 于 条 件 distTo[w] 为 无 穷 大 。 换 句 话 说， 将 算法 4.9 中 的 有 向 图 换 成 无 向 图 并 忽略 re1ax (0) 
方法 中 distTo[v] 部 分 的 代码 ， 就 会 得 到 算法 4.7， 也 就 是 Prim 算法 的 即时 版 本 (! ) 。 同 样 ， 根 


据 LazyPrimMST ( 4.3.4 节 框 注 “ 最 小 生成 树 的 
Prim 算法 的 延 时 实现 ” ) 实现 Dijkstra 算法 的 延 
时 版 本 也 并 不 困难 。 

4.4.4.3 变种 

我 们 只 需 对 Dijkstra 算法 的 实现 稍 作 适当 的 
修改 就 能 够 解决 这 个 问题 的 其 他 版 本 ， 例 如 ， 加 
权 无 向 图 中 的 单 点 最 短路 径 。 给 定 一 幅 加 权 无 向 
图 和 一 个 起 点 s， 回 答 “ 是 否 存在 一 条 从 s 到 给 
定 的 顶点 V 的 路 径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 
最 小 ) 的 那 条 路 径 。” 等 类 似 问题 。 

如 果 将 无 向 图 看 作 有 向 图 ， 这 个 问题 的 答案 
就 很 简单 了 。 也 就 是 说 ， 对 于 给 定 的 加 权 无 向 图 ， 
创建 一 幅 由 相同 顶点 构成 的 加 权 有 向 图 ， 且 对 于 
无 向 图 中 的 每 条 边 , 相应 地 创建 两 条 ( 方向 不 同 ) 
向 边 。 有 向 图 中 的 路 径 和 无 向 图 中 的 路 径 存在 
着 一 一 对 应 的 关系 ， 路 径 的 权重 也 是 相同 的 
最 短路 径 的 问题 是 等 价 的 。 


算法 4.9 最短 路径 的 Dijkstra 算法 


public class DijkstrasP 


{ 
edgeTo; 
vate double[] distTo; 
private IndexMinPQ<Double> pq; 
public DijkstrasP(EdgeweightedDigraph 
G, int s) 


{ 


pq = new 
IndexMinPQ<Double>(G.VO); 


Int V ); V < 


pq.insert(s, 0.0); 
while (!pq.isEmpty CO)) 
relax(G, pq.delMinO) 


4.4 最 短路 径 - 
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{ 
distTo[w] = distTo[v] + e.weight(); 
edgeTo[w] = e; 
if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 
} 
} 
} 
public double distTo(int v) // 最 短路 径 树 实现 中 的 标准 查询 算法 
public boolean hasPathTo(int v) // (请 见 4.4.2.6 节 框 注 “最 短路 径 
public Iterable<DirectedEdge> pathTo(int v) // API 中 的 查询 方法 ) 


} 


Dijkstra 算法 的 实现 每 次 都 会 为 最 短路 径 树 添加 一 条 边 ， 该 边 由 一 个 树 中 的 顶点 指向 一 个 非 树 
顶点 w 且 它 是 到 s 最 近 的 顶点 。 


给 定 两 点 的 最 短路 径 。 给 定 一 幅 加 权 有 向 图 以 及 一 个 起 点 s 和 一 个 终点 t+， 找 到 从 s 到 t 的 最 
短路 径 。 

要 解决 这 个 问题 ， 你 可 以 使 用 Dijkstra 算法 并 在 从 优先 队列 中 取 到 上 之 后 终止 搜索 。 

任意 顶点 对 之 间 的 最 短路 径 。 给 定 一 


幅 加 权 有 向 图 ， 回 答 “ 给 定 一 个 起 点 s 和 public class DijkstraAllPairsSP 
日 不 _ , { 
一 个 终点 t, 是 否 存在 条 从 到 的 路 pateapiglksenasP 辐 医 al 
径 ? :出 最 短 ( 总 权重 最 
径 ? 如 果 有 ， (总 权重 最 小 ) 的 DijkstraAllPairsSP(EdgeWeightedDigraph ©) 
那 条 路 径 。” 等 类 似 问 题 。 { 
J 语 小 凌 得 的 信 码 解 :Y all = new DijkstraSP[G.VO] 
右边 杠 注 中 短小 精 悍 的 代码 解决 了 任 a 
意 顶 点 对 之 间 的 最 短路 径 问 题 ， 所 需 的 时 all[v] = new DijkstraSP(G, Vv); 
间 和 空间 都 与 BVlogV 成 正比 。 它 构造 了 。 
DijkstraSP 对 象 的 数组 每 个 元 素 都 将 Iterable<DirectedEdge> path(int s, int +t) 
- 7 , eas no 
相应 的 顶点 作为 起 点 。 在 用 例 进行 查询 时 ， ed A bo 
i a ouble dist(int s, in 
代码 会 访问 起 点 所 对 应 的 单 点 最 短路 径 对 { return all[s].distTo(t); } 
象 并 将 目的 顶点 作为 参数 进行 查询 。 } 
欧 几 里 得 图 中 的 最 短路 径 。 在 顶点 为 
平面 上 的 点 且 边 的 权重 与 顶点 欧 几 里 得 间 任意 项 点 对 之 间 的 最 短路 径 


距 成 正比 的 图 中 ,解决 单 点 、 给 定 两 点 和 
任意 顶点 对 之 间 的 最 短路 径 问题 。 

在 这 种 情况 下 ， 有 一 个 小 小 的 改动 可 以 大 幅 提 高 Dijkstra 算法 的 运行 速度 ( 请 见 练习 4.4.27 ) 。 
图 4.4.11 显示 的 是 Dijkstra 算法 在 处 理 测 试 文件 mediumEWD.txt ( 请 见 4.4.2.2 节 ) 所 定义 的 欧 
几 里 得 图 时 用 若干 不 同 的 起 点 产生 最 短路 径 树 的 过 程 。 和 之 前 一 样 ， 这 幅 图 中 的 线段 都 表示 双向 的 
有 向 边 。 这 些 图 片 展示 了 一 段 引 人 入 胜 的 动态 过 程 。 

下 面 ， 我 们 将 会 考虑 加 权 无 环 图 中 的 最 短路 径 算法 并 且 将 在 线性 时 间 内 解决 该 问题 ( 比 
Dijkstra 算法 要 快 ) 。 然 后 是 负 权 重 的 加 权 有 向 图 中 的 最 短路 径 问 题 ，Dijkstra 算法 不 适用 于 这 
种 情况 。 
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SPT 


到 4.4.11 Dijkstra 算法 (250 个 顶点 ， 不 同 的 起 点 ) 657 


4.4.5 无 环 加 权 有 向 图 中 的 最 短路 径 算法 
许多 应 用 中 的 加 权 有 向 图 都 是 不 含有 有 向 环 的 。 我 们 现在 来 学 习 一 种 比 Dijkstra 算法 更 快 、 更 
简单 的 在 无 环 加 权 有 向 图 中 找 出 最 短路 径 的 算法 ， 如 图 4.4.12 所 示 。 它 的 特点 是 : 
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口 能 够 在 线性 时 间 内 解决 单 点 最 短路 径 问题 ; nyEWDAG.txt 
口 能 够 处 理 负 权重 的 边 ; 人 
口 能 够 解决 相关 的 问题 ， 例 如 找 出 最 长 的 路 径 。 
这 些 算法 都 是 在 4.2 节 中 学 过 的 无 环 有 向 图 的 拓 57 028 OQ 
扑 排序 算法 的 简单 扩展 。 0 和 3 DO 
地 别 的 是 ， 只 要 将 顶点 的 放松 和 拓扑 排序 结合 上 © a 
起 来 ， 马 上 就 能 够 得 到 一 种 解决 无 环 加 权 有 向 图 中 的 1 3 0.29 
最 短路 径 问题 的 算法 。 首 先 ， 将 distTo[s] 初始 化 和 
为 0， 其 他 distTo[] 元 素 初 始 化 为 无 穷 大 ， 然 后 一 
个 一 个 地 按照 拓扑 顺序 放松 所 有 顶点 。 我 们 可 以 用 与 6 4 0.93 
Dijkstra 算法 的 证 明 (命题 R ) 类 似 的 方法 证 明 这 个 图 4.4.12 ”一 幅 无 环 加 权 有 向 图 和 它 的 一 棵 
方法 的 正确 性 。 最 短路 径 树 


命题 S。 按 照 拓扑 顺序 放松 顶点 ， 就 能 在 和 EtV 成 正比 的 时 间 内 解决 无 环 加 权 有 向 图 的 单 点 最 
短路 径 问 题 。 


证 明 。 每 条 边 v 一 w 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 得 到 : distTo[w]<= distTo[v]+e. 
weight()。 在 算法 结束 前 该 不 等 式 都 成 立 ， 因 为 distTo[v] 是 不 会 变化 的 〈 因 为 是 按照 拓扑 
顺序 放松 顶点 ， 在 v 被 放松 之 后 算法 不 会 再 处 理 任何 指向 v 的 边 ) 而 distTo[w] 只 会 变 小 ( 任 
何 放松 操作 都 只 会 减 小 distTo[] 中 的 元 素 的 值 ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 都 被 如 入 到 
树 中 后 ， 最 短路 径 的 最 优 性 条 件 成 立 ， 命 题 Q 也 就 成 立 了 。 时 间 上 限 很 容易 得 到 : 命题 G 告诉 
我 们 拓扑 排序 所 需 的 时 间 与 E+V 成 正比 ， 而 在 第 二 次 遍历 中 每 条 边 都 只 会 被 放松 一 次 ， 因 此 算 
法 总 耗 时 与 B+ 成 正比 。 
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图 4.4.13 是 算法 处 理 无 环 加 权 有 向 样 图 tinyEWDAG.txt 的 轨迹 。 在 这 个 例子 中 ， 算 法 由 顶点 5 
开始 按照 以 下 步骤 构建 了 一 棵 最 短路 径 树 : 
口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 13 6 4 7 0 2; 
口 将 顶点 5 和 从 它 指出 的 所 有 边 添 加 到 树 中 ; 

口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 

口 将 顶点 3 和 边 3 一 6 添加 到 树 中 , 边 3 一 7 已 经 失效 ; 

口 将 顶点 6 和 边 6 一 2、6 一 0 添加 到 树 中 , 边 6 一 4 已 经 失效 ; 
口 将 顶点 4 和 边 4 一 0 添加 到 树 中 , 边 4 一 7 和 6 一 0 已 经 失效 ; 
口 
口 
口 
多 


将 顶点 7 和 边 7 一 2 添加 到 树 中 ， 边 6 一 2 已 经 失效 ; 
将 顶点 0 添加 到 树 中 , 边 0 一 2 已 经 失效 ; 


将 顶点 2 添加 到 树 中 。 
中 没有 面 出 将 2 添加 到 树 中 的 一 步 ， 拓 扑 序列 中 的 最 后 一 个 顶点 没有 指出 的 边 。 


拓扑 排序 


和 


黑色 加 粗 : 树 中 的 边 


红色 : 正在 被 添 


加 到 树 中 的 边 


@ 
Ce 


一 
A 


注意 ， 该 实现 中 不 需要 布尔 数组 marked[] : 因为 是 按照 拓扑 顺序 处 到 


edgeTor] 
二 5->1 
4 5->4 
过 5->7 
1 5->1 
当 1->3 
4 5->4 
人 5->7 
5->1 
3 1->3 
5->4 
6 3->6 
7 5->7 
0 6->0 
并 5->1 
2 6->2 
3 1->3 (S) 
4 5->4 
6 3->6 
| 5->7 (4) 


图 4.4.13 ”寻找 无 环 加 权 有 问 图 
算法 4.10 在 实现 中 直接 使 用 了 已 学 习 过 和 


4.4 最 短路 径 - 


PuNpPoO 
a 
1 
V 
IN 


(© 
A 
Na 
了 Y 
Na 


灰色 : 失 

效 的 边 0 4->0 
1 5->1 
交 7->2 
1 1->3 
4 5->4 


收口 ~a 
~ uw 
1 
V VY 
IJ Na 


Ja 
Ww 

1 

¥ 
中 
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中 的 最 短路 径 的 算法 轨迹 ( 另 见 彩 插 ) 


的 许多 代码 。 它 假设 Topological 类 使 用 本 节 中 介绍 
的 EdgeweightedDigraph 类 和 DirectedEdge 类 的 API( 请 见 练习 4.4.12 ) 重 载 了 拓扑 排序 的 方法 。 


无 环 有 回 图 中 的 顶点 ， 所 以 


不 可 能 再 次 遇 到 已 经 被 放松 过 的 顶点 。 算 法 4.10 的 效率 几乎 已 经 没有 提高 的 空间 了 : 在 拓扑 排序 后 ， 
构造 函数 会 扫描 整 幅 图 并 将 每 条 边 放松 一 次 。 在 已 知 加 权 图 是 无 环 的 情况 下 ， 它 是 找 出 最 短路 径 的 


最 好 方法 。 


算法 4.10 无 环 加 权 有 向 图 的 最 短 


A 


径 算 法 
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public class AcyclicsP 
{ 


public AcyclicsP(EdgeweightedDigraph G, iint s) 


ew D1 


Topological top = new Topological(G) ; 
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for (int v : top.order(O)) 
relax(G, v); 


} 


private void relax(EdgeWeightedDigraph G, int v) 
// 请 见 4.4.2.5 框 注 “ 顶 点 的 松 驰 ” 


public double distTo(int v) // 最 短路 径 树 实现 中 的 标准 查询 算法 
public boolean hasPathTo(int v) // (请 见 4.4.2.6 框 注 “ 最 短路 径 
public Iterable<DirectedEdge> pathTo(int v)  // API 的 查询 方法 ”) 
} 
无 环 加 权 有 向 图 的 最 短路 径 算 法 使 用 了 拓扑 排序 (算法 4.5， 重 载 了 EdgeWeightedDigraph 类 和 
DirectedEdge 类 ) 来 按照 拓扑 顺序 放松 所 有 顶点 ， 这 对 于 计算 出 图 中 的 最 短路 径 已 经 足够 了 。 
% java AcyclicSP tinyEWDAG.txt 5 
5 to 0 (0.73): 5->4 0.35 4->0 0.38 
Ston (O032)05 =I0R32 
Suto02 (0862) 5=>710828997=>270%34 
Sto 3 (0561)5 -> 05320 1 >3°029 
St0 M40(0835DE 5 >40835 
BEoNS 000 
SlonGn GL 5 S02 >33052903 >630A52 
StOR7 0 (09828 5 >7 .03828 
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命题 $ 很 重要 ， 因 为 它 的 “无 环 ” 能 够 极 大 地 简化 问题 的 论断 。 对 于 最 短路 径 问 题 ， 基 于 拓扑 
排序 的 方法 比 Dijkstra 算法 快 的 倍数 与 Dijkstra 算法 中 所 有 优先 队列 操作 的 总 成 本 成 正比 。 另 外 ， 
命题 $ 的 证 明和 边 的 权重 是 否 非 负 无 关 ， 因 此 无 环 加 权 有 向 图 不 会 受到 任何 限制 。 下 面 用 这 个 特点 
解决 边 的 负 权 重 问题 。 我 们 会 考虑 使 用 这 个 最 短路 径 模 型 来 解决 男 外 两 个 问题 ， 其 中 之 一 乍 一 看 其 
至 和 图 的 处 理 似乎 没有 任何 关系 。 
4.4.5.1 最 长 路 径 

考虑 在 无 环 加 权 有 向 图 中 寻找 最 长 路 径 的 问题 ， 边 的 权重 可 正 可 负 。 

无 环 加 权 有 向 图 中 的 单 点 最 长 路 径 。 给 定 一 幅 无 环 加 权 有 向 图 ( 边 的 权重 可 能 为 负 ) 和 一 个 起 
点 5s, 回 答 “ 是 否 存 在 一 条 从 s 到 给 定 的 顶点 v 的 路 径 ? 如 果 有 , 找 出 最 长 ( 总 权重 最 大 ) 的 那 条 路 径 。” 
等 类 似 问题 。 

我 们 刚刚 学 习 过 的 算法 能 够 快速 地 解决 这 个 问题 。 


命题 T。 解 决 无 环 加 权 有 向 图 中 的 最 长 路 径 间 题 所 需 的 时 间 与 Bt 这 成 正比 。 


证 明 。 给 定 一 个 最 长 路 径 问 题 ， 复制 原始 无 环 加 权 有 向 图 得 到 一 个 副本 并 将 副本 中 的 所 有 边 的 
权重 取 相 反 数 。 这 样 ， 副 本 中 的 最 短路 径 即 为 原 图 中 的 最 长 路 径 。 要 将 最 短路 径 问题 的 答案 转 
换 为 最 长 路 径 问题 的 答案 ， 只 需 将 方案 中 的 权重 变 为 正 值 即 可 。 根 据 命题 S 立即 可 以 得 到 算法 
所 需 的 时 间 。 


根据 这 种 转换 实现 Acyc1icLP 类 来 寻找 一 幅 无 环 加 
权 有 向 图 中 的 最 长 路 径 就 十 分 简单 了 。 实 现 该 类 的 一 个 
更 简单 的 方法 是 修改 AcyclicSP， 将 distTo[] 的 初始 
值 变 为 Double .NEGATIVE_INFINITY 并 改变 relaxQ 〇 方 
法 中 的 不 等 式 的 方向 。 无 论 使 用 哪 种 方法 ， 都 能 得 到 无 
环 加 权 有 向 图 中 的 最 长 路 径 问 题 的 一 种 高 效 的 解决 方案 。 
和 它 形成 鲜明 对 比 的 是 ， 在 一 般 的 加 权 有 向 图 ( 边 的 权 


重 可 能 为 负 ) 中 寻找 最 长 简单 路 径 的 已 知 最 好 算法 在 最 
坏 情 况 下 所 需 的 时 间 是 指数 级 别 的 (请 见 第 6 章 ) ! 出 
现 环 的 可 能 性 似乎 使 这 个 问题 的 难度 以 指数 级 别 增长 。 
图 4.4.14 是 算法 在 无 环 加 权 有 问 样 图 tnyEWDAG.txt 
中 寻找 最 长 路 径 的 轨迹 ， 你 可 以 将 它 与 图 4.4.13 相 比 较 。 


在 这 个 例子 中 ， 算 法 由 顶点 
最 长 路 径 树 : 


64702; 


5 一 7 已 经 失效 ; 


5 按照 以 下 步骤 构建 了 一 棵 


口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 


口 将 顶点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 
口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 
口 将 顶点 3 和 边 3 一 6、3 一 7 添加 到 树 中 ， 边 


口 将 顶点 6 和 边 6 一 2、 
边 5 一 4 已 经 失效 ; 


失效 ; 
口 将 顶点 0 添加 到 树 中 
口 将 顶点 2 添加 到 树 中 


最 长 路 径 算法 处 理 顶 点 的 顺序 和 最 短路 径 算 法 一 样 ， 


但 产生 的 结果 却 完全 不 同 。 
4.4.5.2 ”并 行 任务 调 度 


6 一 4 和 6 一 0 添加 到 树 中 ， 


口 将 顶点 4 和 边 4 一 0、4 一 7 添加 到 树 中 ， 边 
6 一 0 和 3 一 7 已 经 失效 ; 
口 将 顶点 7 和 边 7 一 2 添加 到 树 中 ,， 边 6 一 2 已 经 


， 边 0 一 2 已 经 失效 ; 


(未 画 出 ) 。 


作为 算法 应 用 的 示例 ， 我 们 再 次 考虑 在 4.2 节 中 出 现 


过 的 任务 调度 类 的 问题 。 这 次 需要 解决 以 下 调度 问题 ( 楷 


体 部 分 为 与 4.2.4.1 节 的 问题 


述 的 不 同 之 处 ) 。 


优先 级 限制 下 的 并 行 任务 调度 。 给 定 一 组 需要 完成 


的 任务 和 每 个 任务 所 需 的 时 


间 ， 以 及 一 组 关于 任务 完成 


的 先后 次 序 的 优先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 
该 如 何在 若干 相同 的 处 理 器 上 (数量 不 限 ) 安排 任务 并 在 最 短 的 时 间 内 完成 所 有 任务 ? 


4.2 节 的 模型 默认 只 有 单个 处 理 器 : 将 任务 按照 拓扑 顺序 排序 ， 完 成 任务 的 总 耗 时 就 是 所 有 任 
务 所 需要 的 总 时 间 。 现 在 假设 有 足够 多 的 处 理 器 并 能 够 同时 处 理 任意 多 的 任务 ， 受 到 的 只 有 优先 级 


4.4 最 短路 径 二 


拓扑 排序 


和 


A 


tt 
刚刚 失效 


(0) | 


2 


图 4.4.14 无 环 图 中 的 
( 男 见 彩 插 ) 
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最 长 路 径 算法 
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的 限制 。 和 以 前 一 样 ， 需 要 处 理 的 任务 可 能 上 百 万 甚至 上 亿 ， 因 此 。” 表 4.4.5 一 个 任务 调度 问题 
需要 一 个 高 效 的 算法 。 令 人 兴奋 的 是 ， 正 好 存在 一 种 线性 时 间 的 算 。 一 一 ET 


法 一 一 一 种 叫做 “关键 路 径 “ 的 方法 能 够 证 明 这 个 问题 与 无 环 加 权 任务” 时 征 。 务 之 前 完成 
有 向 图 中 的 最 长 路 径 问 题 是 等 价 的。 这 个 方法 已 成 功 应 用 于 无 数 的 0 40 1 7 3 
工业 软件 之 中 。 0 

假设 任意 可 用 的 处 理 器 都 能 在 任务 所 需 的 时 间 内 完成 它 , 那么 ”300 
我 们 的 重点 就 是 尽早 安排 每 一 个 任务 。 例 如 , 表 4.4.5 给 出 了 一 个 。 4 38.0 
任务 调度 问题 ， 图 4.4.15 给 出 的 解决 方案 显示 了 这 个 问题 所 需 的 最 。 ”5 45.0 
短 时 间 为 173.0。 这 份 调度 方案 满足 了 所 有 限制 条 件 ， 没 有 其 他 调 2 
度 方案 能 比 它 耗 时 更 少 ， 因 为 任务 必须 按照 0-9 一 6-8 -2 的 7? 330 3 
顺序 完成 。 这 个 顺序 就 是 这 个 问题 的 关键 路 径 。 由 优先 级 限制 指定 9 290 4 6 


的 每 一 列 任务 都 代表 了 调度 方案 的 一 种 可 能 的 时 间 下 限 。 如 果 将 一 
系列 任务 的 长 度 定义 为 完成 所 有 任务 的 最 早 可 能 时 间 ， 那 么 最 长 的 
任务 序列 就 是 问题 的 关键 路 径 ， 因 为 在 这 份 任务 序列 中 任何 任务 的 
启动 延迟 都 会 影响 到 整个 项 目的 完成 时 间 。 


定义 。 解 决 并 行 任务 调度 问题 的 关键 路 径 方法 的 步骤 如 下 : 创建 一 幅 无 环 加 权 有 向 图 ， 其 中 包 
含 一 个 起 点 s 和 一 个 终点 七 且 每 个 任务 都 对 应 着 两 个 顶点 〈 一 个 起 始 顶点 和 一 个 结束 顶点 ) 。 
对 于 每 个 任务 都 有 一 条 从 它 的 起 始 顶 点 指向 结束 顶点 的 边 ， 边 的 权重 为 任务 所 需 的 时 间 。 对 于 
每 条 优先 级 限制 v 一 w， 添 加 一 条 从 v 的 结束 顶点 指向 w 的 起 始 顶 点 的 权重 为 零 的 边 。 我 们 还 
需要 为 每 个 任务 添加 一 条 从 起 点 指向 该 任务 的 起 始 顶点 的 权重 为 零 的 边 以 及 一 条 从 该 任务 的 结 
来 顶点 到 终点 的 权重 为 零 的 边 。 这 样 ， 每 个 任务 预计 的 开始 时 间 即 为 从 起 点 到 它 的 起 始 顶点 的 
最 长 距离 。 


0 41 70 91 123 173 


图 4.4.15 ”并行 任 务 调度 问题 的 解决 方案 


图 4.4.16 显示 的 是 示例 任务 所 对 应 的 图 ， 图 4.4.17 则 显示 的 是 最 长 路 径 的 答案 。 如 定义 所 述 ， 
在 图 中 每 个 任务 都 对 应 着 三 条 边 〈 从 起 点 到 起 始 项 点 、 从 结束 项 点 到 终点 的 权重 为 零 的 边 ， 以 及 一 
条 从 起 始 项 点 到 结束 顶点 的 边 ) ， 每 个 优先 级 限制 条 件 都 对 应 着 一 条 边 。 后 面 框 注 “优先 级 限制 下 
的 并 行 任务 调度 问题 的 关键 路 径 方 法 ”中 的 CPM 类 简洁 明了 地 实现 了 关键 路 径 方 法 。 它 能 够 将 任意 
任务 调度 问题 转化 为 无 环 加 权 有 向 图 中 的 一 个 最 长 路 径 问 题 , 用 Acyc1icLP 解决 它 并 打印 出 每 个 
任务 的 开始 时 间 以 及 调度 方案 的 结束 时 间 。 
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任务 的 起 始 项 点 ”任务 的 结束 顶点 优先 级 限制 


yi 0 ss (权重 为 零 ) 
人 


| 
指向 每 个 任务 入 
的 起 始 顶点 的 36 


21 
CS) 权重 为 零 的 边 区 EO. 四 


LA| 
二 
记 
内 
| 
滨 
I 
次 
I 
tk 
读 
党 
这 
ES 
1] 
二 
fey 
| 
党 
9 


a 


关键 路 径 


图 4.4.17 任务 调度 示例 问题 的 最 长 路 径 解决 方案 


优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 方法 


public class CPM 


{ % more jobsPC. 
public static void main(String[] args) de 
{ 10 
int N = StdIn.readInt(); StdIn.readLine(); 0 0) 
EdgeweightedDigraph 0G; S02 
G = new EdgeWeightedDigraph (2*N+2); 5080 
int s = 2*N, t = 2*N+1; 36.0 
for (int 1 = 0; i < N; i++) ey 
45.0 
{ 21.0 38 
String[] a = StdIn.readLine().split("\\s+"); a2 0 习 旧 
double duration = Double.parseDouble(a[0]); 32.0 2 
G.addEdge(new DirectedEdge(i, i+N, duration)); HONG 


G.addEdge(new DirectedEdge(s, i, 0.0)); 


G.addEdge (new DirectedEdge(i+N, t, 0.0)); 

for (int ] = 1; j < a.length; j++) 

{ 
int successor = Integer.parseInt(a[j]); 
G.addEdge(new DirectedEdge(i+N, successor, 0.0)); 
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AcyclicLP lp = new AcyclicLP(G, s); 


% java CPM < 


Stdout.println(C"Start times:"); ODSbevext 

for (Cint 1 = 0; i < N; i++) Start times: 
StdOut.printf("%4d: %5.1f\n", i, 1p.distTo(i)); 
StdOut.printf("Finish time: %5.1f\n", lp.distTo(t)); 浆 123 0 

3 9 0 

} 4=70a0, 

5: 0.0 

这 里 实现 的 任务 调度 问题 的 关键 路 径 方法 将 问题 归 约 为 寻找 无 环 加 权 有 向 1 

图 的 最 长 路 径 问 题 。 它 会 根据 任务 调度 问题 的 描述 用 关键 路 径 的 方法 构造 一 幅 2 on 
加 权 有 向 图 ( 且 必 然 是 无 环 的 ) ， 然 后 使 用 AcyclicLP (请 见 命 题 T) 找到 图 3 A 


中 的 最 长 路 径 树 ， 最 后 打印 出 各 条 最 长 路 径 的 长 度 ， 也 就 正好 是 每 个 任务 的 开 173 .0 
始 时 间 。 


Finish time: 


命题 U。 解 决 优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 法 所 需 的 时 间 为 线性 级 别 。 


证 明 。 为 什么 CPM 类 能 够 解决 问题 ? 算法 的 正确 性 依赖 于 两 个 因素 。 首 先 ， 在 相应 的 
图 中 ,每 条 路 径 都 是 由 任务 的 起 始 顶 点 和 结束 顶点 组 成 的 并 由 权重 为 零 的 优先 级 限制 
分 隔 一 一 从 起 点 s 到 任意 顶点 v 的 任意 路 径 的 长 度 都 是 任务 v 的 开始 /结束 时 间 的 下 
这 已 经 是 在 同一 台 处 理 器 上 顺序 完成 这 些 任务 的 最 优 的 排列 顺序 了 。 因 此 ， 从 起 点 s 
的 最 长 路 径 就 是 所 有 任务 的 完成 时 间 的 下 限 。 第 二 ， 由 最 长 路 径 得 到 的 所 有 开始 和 结 
是 可 行 的 一 一 每 个 任务 都 只 能 在 优先 级 限制 指定 的 先导 任务 完成 之 后 开始 ， 因 为 它 的 
就 是 顶点 到 它 的 起 始 顶 点 的 最 长 路 径 的 长 度 。 因 此 ， 从 起 点 s 到 终点 七 的 最 长 路 径 长 
有 任务 完成 时 间 的 上 限 。 由 命题 工 很 容易 得 到 算法 所 需 的 时 间 是 线性 的 。 


4.4.5.3 ”相对 最 后 期 限 限 制 下 的 并 行 任务 调度 


有 向 无 环 
条 件 的 边 
限 ， 因 为 
到 终点 七 
束 时 间 都 
开始 时 间 
度 就 是 所 


一 般 的 最 后 期 限 (deadline ) 都 是 相对 于 第 一 个 任务 的 开始 时 间 而 言 的 。 假 设 在 任务 调度 问题 


度 表 中 有 足够 的 空 档 来 满足 这 个 最 后 期 限 限制 : 我 们 可 以 令 4 号 任务 开始 于 111 时 间 ， 


中 加 入 一 种 新 类 型 的 限制 ， 需 要 某 个 任务 必须 在 指定 的 时 间 点 之 前 开始 ， 即 指定 和 另 一 个 任务 的 开 
始 时 间 的 相对 时 间 。 这 种 类 型 的 限制 条 件 在 争分夺秒 的 生产 线 上 以 及 许多 其 他 应 用 中 都 很 常见 ， 但 
它 也 会 使 得 任务 调度 问题 更 难 解 决 。 例 如 ， 如 表 4.4.6 所 示 ， 假 设 要 在 前 面 的 示例 中 加 入 一 个 限制 
条 件 ,， 使 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单 位 之 内 开始 。 实 际 上 ， 在 这 里 最 后 期 限 限 
制 的 是 4 号 任务 的 开始 时 间 : 它 的 开始 时 间 不 能 早 于 2 号 任务 开始 12 个 时 间 单 位 。 在 示例 中 ， 调 


即 2 号 任务 


计划 开始 时 间 前 的 12 个 时 间 单 位 处 。 需 要 注意 的 是 ， 如 果 4 号 任务 耗 时 很 长 ， 这 个 修改 可 能 会 延 
长 整个 调度 计划 的 完成 时 间 。 同 理 ， 如 果 再 添加 一 个 最 后 期 限 的 限制 条 件 ， 令 2 号 任务 必须 在 7 号 
任务 启动 后 的 70 个 时 间 单 位 内 开始 ， 还 可 以 将 7 号 任务 的 开始 时 间 调 整 到 53， 这样 就 不 用 修改 3 
号 任务 和 8 号 任务 的 计划 开始 时 间 。 但 是 如 果 继 续 限制 4 号 任务 必须 在 零 号 任务 启动 后 的 80 个 时 
间 单 位 内 开始 ,那么 就 不 存在 可 行 的 调度 计划 了 : 限制 条 件 4 号 任务 必须 在 0 号 任务 启动 后 的 80 


个 时 间 单 位 内 开始 以 及 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单 位 之 内 开始 ， 意 


味 着 2 号 任 


务必 须 在 0 号 任务 启动 后 的 93 个 时 间 单 位 之 内 开始 , 但 因为 存在 任务 链 0 ( 41 个 时 间 单 位 ) 一 9(29 
个 时 间 单 位 ) 一 6 (21 个 时 间 单 位 ) 一 8 (32 个 时 间 单 位 ) 一 2，2 号 任务 最 早 也 只 能 在 0 号 任务 
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启动 后 的 123 个 时 间 单 位 之 内 开始 。 前 面 添加 的 限制 如 表 4.4.7 表 4.4.6 相对 最 后 期 限 限制 下 的 
所 示 。 最 后 期 限 的 限制 越 多 ,调度 的 可 能 性 也 就 越 多 ， 简 单 的 任务 调度 
问题 也 会 变 得 越 困 难 。 


原始 问题 
表 4.4.7 ”向 任务 调度 问题 中 添加 的 最 后 期 限 限制 0 

任务 相对 最 后 期 限 相对 于 任务 1 41.0 
2 12.0 4 < 380 
3 91.0 
70.0 7 4 70.0 
4 80.0 0 5 0.0 

6 

7 

8 


命题 V。 相 对 最 后 期 限 限制 下 的 并 行 任务 调度 问题 是 一 个 0 

加 权 有 向 图 中 的 最 短路 径 问题 ( 可 能 存在 环 和 负 权 重 边 ) 。 2 任务 必须 在 4 
0 

证 明 。 与 命题 U 一 样 根据 任务 调度 的 描述 构造 相同 的 加 ee 


权 有 向 图 ， 为 每 条 最 后 期 限 限制 添加 一 条 边 : 如 果 任 务 v 


So 


0.0 


必须 在 任务 w 启 动 后 的 d 个 时 间 单 位 内 开始 ， 则 添加 一 1 41.0 
条 从 v 指向 w 的 负 权 重 为 d 的 边 。 将 所 有 边 的 权重 取 反 0 
即 可 将 该 间 题 转化 为 一 个 最 短路 径 间 题 。 如 果 存 在 可 行 4 111.0 
的 调度 方案 ， 证 明 也 就 完成 了 。 你 将 会 看 到 ， 判 断 一 个 
调度 方案 是 否 可 行 也 是 计算 的 一 部 分 。 
这 个 示例 说 明了 负 权重 的 边 在 实际 应 用 的 模型 中 也 能 

到 重要 的 作用 。 它 说 明 ， 如 果 能 够 有 效 解决 负 权重 边 的 最 短路 号 全 务 启动 后 的 70， 
径 问 题 ， 那 就 能 够 找到 相对 最 后 期 限 限制 下 的 并 行 任务 调度 问 任务 ”开始 时 间 
题 的 解决 方案 。 我 们 已 经 学 习 过 的 算法 都 无 法 完成 这 个 任务 : 0 0.0 
Dijkstra 算法 只 适用 于 正 (或 零 ) 权重 的 边 ,算法 4.10 要 求 有 2 
向 图 是 无 环 的 。 下 面 我 们 来 看 看 如 何 解决 含有 负 权 重 且 不 一 定 3 91.0 
是 无 环 的 有 向 图 中 的 最 短路 径 问 题 ( 请 见 图 4.4.18 ) 。 0 
6 70.0 

4.4.6 ”一般 加 权 有 向 图 中 的 最 短路 径 问 题 es 
刚才 讨论 过 的 最 后 期 限 限制 下 的 任务 调度 问题 告诉 我 们 负 9 41.0 

权重 的 边 并 不 仅仅 是 一 个 数学 问题 。 相 反 ， 它 能 够 极 大 地 扩展 
解决 最 短路 径 问 题 的 模型 的 应 用 范围 。 接 下 来 ， 考 虑 既 可 能 仿 人 


互 


有 环 也 可 能 含有 人 负 权 重 的 边 的 加 权 有 向 图 中 的 最 短路 径 算法 。 

在 开始 之 前 ， 先 来 学 习 一 下 这 种 有 向 图 的 基本 性 质 以 更 新 我 们 对 最 短路 径 的 认识 。 图 4.4.19 是 一 个 
小 小 的 示例 ， 展 示 的 是 负 权 重 的 边 对 有 向 图 中 的 最 短路 径 的 影响 。 也 许 最 明显 的 改变 就 是 当 存 在 负 
权重 的 边 时 ， 权 重 较 小 的 路 径 含 有 的 边 可 能 会 比 权重 较 大 的 路 径 更 多 。 在 只 存在 正 权重 的 边 时 ， 我 
们 的 重点 在 于 寻找 近 路 ; 但 当 存 在 负 权 重 的 边 时 ， 我 们 可 能 会 为 了 经 过 负 权 重 的 边 而 绕 弯 。 这 种 效 
应 使 得 我 们 要 将 查找 “最 短 ” 路 径 的 感觉 转变 为 对 算法 本 质 的 理解 ,因此 需要 抛弃 直觉 并 在 一 个 简单 、 
抽象 的 层面 上 考虑 这 个 问题 。 
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轨 4.4.18 ”相对 最 后 期 限 限制 和 优先 级 限制 下 的 并 行 任务 调度 问题 的 加 权 有 向 图 表示 

4.4.6.1 ”尝试 | 

一 个 想法 是 先 找到 权重 最 小 (最 小 的 typext 
负 值 ) 的 边 ， 然 后 将 所 有 边 的 权重 加 上 这 个 全 8 < 
负 值 的 绝对 值 ， 这 样 原 有 向 图 就 转变 称 为 了 18 
一 幅 不 含有 负 权 重 边 的 有 向 图 。 这 种 天 真 的 a Oo 
做 法 不 会 解决 任何 问题 ， 因 为 新 图 中 的 最 短 5 0.28 RON 
人 路 径 中 5->1 0.32 Cy 
的 边 越 多 ， 这 种 变换 产生 的 危害 越 大 ( 请 见 a / 
练习 4.4.14) 。 2 2 
4.4.6.2 ”尝试 1 2-x7 O34 

第 二 个 想法 是 尝试 改造 Dijkstra 算法 。 en 
这 种 方法 最 根本 的 缺陷 在 于 原 算法 的 基础 在 0 
于 根据 距离 起 点 的 远近 依次 检查 路 径 。 命 题 
RR 对 算法 正确 4 生 的 证 明 是 基于 添加 一 条 边 会 以 顶点 0 为 起 点 的 最 短路 径 树 edgeTo[] distTo[] 
使 的 路 径 变 得 更 长 的 假设 。 但 添加 任意 负 权 9SQ a 
重 的 边 只 会 使 得 路 径 更 短 ， 因 此 这 个 假设 是 0 
不 成 立 的 (请 见 练习 4.4.14 ) 。 i 0 os 

666| 4.4.6.3 负 权 重 的 环 7 2->7 0.60 


668 当 我 们 在 研究 含有 负 权 重 边 的 有 向 图 时 ， 
如 果 该 图 中 含有 一 个 权重 为 负 的 环 ， 那 么 最 
短路 径 的 概念 就 失去 意义 了 。 例 如 图 4.4.20， 除 了 边 5 一 4 的 权重 为 -0.66 外 ， 它 和 第 一 个 示例 完 

全 相同 。 这 里 ,， 环 4 一 7 一 5 一 4 的 权重 为 : 

0.37+0.28-0.66=-0.01 
我 们 只 要 围 着 这 个 环 儿 圈子 就 能 得 到 权重 任意 短 的 路 径 ! 注意 ， 有 向 环 的 所 有 边 的 权重 并 不 一 
定 都 必须 是 负 的 ， 只 要 权重 之 和 是 负 的 即 可 。 


图 4.4.19 含有 人 负 权重 的 边 的 加 权 有 向 图 


定义 。 加 权 有 向 图 中 的 负 权 重 环 是 一 个 总 权重 ( 环 上 的 所 有 边 的 权重 之 和 ) 为 负 的 有 向 环 。 
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从 s 到 v 的 最 短路 径 是 不 可 能 存在 的 ， 因 为 可 以 用 这 个 负 权 重 环 构造 权重 任意 小 的 路 径 。 换 句 话说 ， 
在 负 权 重 环 存在 的 情况 下 ， 最 短路 径 问 题 是 没有 意义 的 ， 如 图 4.4.21 所 示 。 


命题 W。 当 且 仅 当 加 权 有 向 图 中 至 少 存在 一 条 从 s 到 V 的 有 向 路 径 且 所 有 从 s 到 Vv 的 有 向 路 径 
上 的 任意 顶点 都 不 存在 于 任何 负 权 重 环 中 时 ，s 到 v 的 最 短路 径 才 是 存在 的 。 


证 明 。 请 见 以 上 讨论 以 及 练习 4.4.29。 


注意 ， 要 求 最 短路 径 上 的 任意 顶点 都 不 存在 于 负 权 重 环 中 意味 着 最 短路 径 是 简单 的 ， 而 且 与 正 
权重 边 的 图 一 样 都 能 够 得 到 此 类 顶点 的 最 短路 径 树 。 


灰色 : 从 s 不 可 达 的 顶点 
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白色 : 从 s 可 达 的 顶点 


黑色 轮廓 : 存 
在 从 s 到 达 该 顶 
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从 顶点 0 到 顶点 6 的 最 短路 径 
0->4->7->5->4->7->5…->1->3->6 


红 边 轮廓 : 不 存在 从 s 到 达 该 顶点 的 最 短路 径 669 


图 4.4.20 ”含有 人 负 权 重 环 的 加 权 有 向 图 ( 男 见 彩 插 ) 图 4.4.21 最 短路 径 问 题 的 各 种 可 能 性 ( 另 见 彩 插 ) 


4.4.6.4 ”尝试 川 
无 论 是 否 存 在 负 权 重 环 ， 从 s 到 可 达 的 其 他 顶点 的 一 条 最 短 的 简单 路 径 都 是 存在 的 。 为 什么 不 


定义 最 短路 径 以 方便 寻找 呢 ? 不 幸 的 是 ,已 知 解决 这 个 问题 的 最 好 算法 在 最 坏 情况 下 所 需 的 时 间 是 
旨 数 级 别 的 〈 请 见 第 6 章 ) 。 一 般 来 说 ， 我 们 认为 这 种 问题 “ 太 难 了 ”， 只 会 研究 它 的 简单 版 本 。 
因此 ,一 个 定义 明确 且 可 以 解决 加 权 有 向 图 最 短路 径 问 题 的 算法 要 能 够 : 

口 对 于 从 起 点 不 可 达 的 项 点， 最 短路 径 为 正 无 穷 ( +% ) ; 


口 对 于 从 起 点 可 达 但 路 径 上 的 某 个 顶点 属于 一 个 负 权重 环 的 顶点 ， 最 短路 径 为 负 无 穷 (-co ) ; 
口 对 于 其 他 所 有 项 点， 计算 最 短路 径 的 权重 (以 及 最 短路 径 树 ) 。 


从 本 节 的 开始 到 现在 ， 我 们 为 最 短路 径 问 题 加 上 各 种 限制 ， 使 得 我 们 能 够 找到 解决 相应 问题 的 
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办 法 。 首 先 ， 我 们 不 允许 负 权 重 边 的 存在 ; 其 次 不 接受 有 向 环 。 现 在 我 们 放宽 所 有 这 些 条 件 并 重点 


解决 一 般 有 向 图 中 的 以 下 问题 。 
负 权 重 环 的 检测 。 给 定 的 加 权 有 向 
负 权 重 环 不 可 达 时 的 单 点 最 短路 径 


图 中 含有 负 权 重 环 吗 
。 给 定 一 幅 加 权 有 向 


? 如 果 有 ， 找 到 它 。 
图 和 一 个 起 点 s 且 从 s 无 法 到 达 任 何 负 


权重 环 ， 回 答 “ 是 否 存 在 一 条 从 s 到 给 定 的 顶点 v 的 有 向 路 径 ? 如果 有 ， 找 出 最 短 (总 权重 最 小 ) 


的 那 条 路 径 。” 等 类 似 问 题 。 


总 结 。 尽 管 在 含有 环 的 有 向 图 中 最 


有 向 图 中 高 效 找 出 最 短 简单 路 径 的 问题 ， 


在 最 后 期 限 限制 下 的 任务 调度 问题 中 ， 

现实 世界 中 的 实际 限制 得 来 的 ， 因 此 负 
改正 相应 的 错误 ， 找 到 没有 负 权 重 环 问 
到 负 权 重 环 就 是 计算 的 目标 。 下 镍 
够 简明 、 有 效 地 解决 这 些 问 题 并 


命题 X (Bellman-Ford 算法 ) 。 在 任意 含有 人 了 个 顶点 的 加 权 有 向 
达 任 何 负 权 重 环 ， 以 下 算法 能 够 解决 其 中 的 单 点 最 短路 径 问 题 : 将 distTo[s] 初始 化 为 0， 其 他 
图 的 所 有 边 ， 重 复 严 轮 。 


distTo[] 元 素 初 始 化 为 无 穷 大 。 以 任 


证 明 。 对 于 从 s 可 达 的 任意 顶点 七 ， 
ES 和 天 | 人 二 


我 们 会 通过 归纳 法 证 明 算法 在 第 1 了 轮 之 后 能 够 得 到 s 到 vi 的 最 短路 径 。 


很 容易 。 假 设 对 于 i 命题 成 立 ， 那 么 


短路 径 是 


负 权重 ] 
权重 环 大 多 可 能 来 自 
题 的 调 


意 顺 序 放松 有 向 
考虑 从 s 到 七 的 


个 没有 意义 的 问题 ， 而 
在 实际 应 用 中 仍然 需要 能 够 识别 其 中 的 负 权 重 环 。 例 如 ， 
所 的 出 现 可 能 相对 较 少 : 限制 条 件 和 最 后 期 限 都 是 从 


度 方案 才 是 解决 问题 的 正 而 


| 这 个 由 R.Bellman 和 L.Ford 在 20 世纪 50 年 代 未 期 发 明 的 算法 能 
且 同 样 适用 于 正 权 重 边 的 有 向 图 。 


一 条 最 短路 径 : ww 一 Vi 一，…: 


且 也 无 法 有 效 解决 在 这 种 


于 问题 陈述 中 的 错误 。 找 出 负 权重 环 ， 
方式 。 在 其 他 情况 下 ， 找 


图 中 给 定 起 点 s， 从 s 无 法 到 


NS 


~ 


环 是 不 可 达 的 ， 这 样 的 路 径 是 存在 的 且 k 不 会 大 于 六 1。 


s 到 Vv; 的 最 短路 径 即 为 Vo 一 Vi 一 ，…: 


最 简单 的 情况 ( i=0) 


— Vv;, distTo[v;] 


就 是 这 条 路 径 的 长 度 。 现 在 ， 我 们 在 第 了 轮 中 放松 所 有 的 顶点 ， 包 括 vi， 因此 distTo[vi] 


不 会 大 于 distTo[v;] 与 边 
distTo[vi] 与 边 Vi 一 Vi 


括 vi;; 它 也 不 可 能 更 小 ， 因 为 它 就 是 路 径 vo 一 Vi 一 …: 


此 ,在 i+1 轮 之 后 算法 能 够 得 到 从 s 


到 vin 的 最 短路 径 。 


Vi 一 Vi 的 权重 之 和 。 在 第 7 了 轮 放 松 之 后 ，distTo[viw] 必然 等 于 
的 权重 之 和 。 它 不 可 能 更 大 ， 因 为 在 第 7 轮 中 放松 了 所 有 顶点 ， 包 
一 Via 的 长 度 ， 也 就 是 最 短路 径 了 。 因 


命题 W 〈 续 ) 。Bellman-Ford 算法 所 需 的 时 间 和 EV 成 正比 ， 空 间 和 和信 成 正比 。 


这 个 方法 非常 通用 ， 因 为 它 没有 指定 边 的 放松 顺序 。 下 镍 


上 重复 玉 轮 。 


法 上 ， 其 中 只 放松 从 任意 顶点 指出 的 所 有 边 〈 顺序 任意 ) ， 


for (int pass = 0; pass < G.VO; pass++) 
for (v= 0; Vv < G.VO; v++) 
for (DirectedEdge e : G.adj(v)) 
relax(e); 
我 们 不 会 仔细 研究 这 个 版 本 ， 因 为 它 总 是 会 放松 把 条 


应 用 场景 中 更 加 高 效 。 


边 


i 将 注意 力 集中 在 一 个 通用 性 稍 逊 的 方 
以 下 代码 说 明了 这 种 方法 的 简洁 性 : 


且 只 需 稍 作 修改 即 可 使 算法 在 一 般 的 


4.4.6.5 “基于 队列 的 Bellman- 
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Ford 算法 


其 实 ， 根 据 经 验 我 们 很 容易 知道 在 任意 一 轮 中 许多 边 的 放松 都 不 会 成 功 : 只 有 上 一 轮 中 的 


distTo[] 值 发 生变 化 的 顶点 指出 的 边 才能 够 改变 其 他 distTo[] 元 素 的 值 。 为 了 记录 这 样 的 顶点 ， 
我 们 使 用 了 一 条 FIFO 队列 。 算 法 在 处 理 正 权 重 标 准 样 图 中 进行 的 操作 如 图 4.4.22 所 示 。 在 示意 图 
4.4.22 左 侧 是 每 一 轮 中 队列 中 的 有 效 顶 点 ( 红色 ) ， 紧 接着 是 下 一 轮 中 的 有 效 顶 点 (黑色) 。 首 先 
将 起 点 加 入 队列 ， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 

口 放松 边 1 一 3 并 将 顶点 3 加 入 队列 。 

口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 

口 放松 边 6 一 4、6 一 0 和 6 一 2 并 将 顶点 4、0 和 2 加 入 队列 。 

口 放松 边 4 一 7、4 一 5 并 将 顶点 7 和 5 加 入 队列 。 放 松 已 经 失效 的 边 0 一 4 和 0 一 2。 然 后 再 

放松 边 2 一 7 (并 重新 为 4 一 7 着 色 ) 。 
口 放松 边 7 一 5 (并 重新 为 4 一 5 着色 ) 但 不 将 顶点 5 加 入 队列 〈 它 已 经 在 队列 之 中 了 ) 。 放 


松 已 经 失效 的 边 7 一 3。 然 后 放松 已 经 失效 的 边 5 一 1、5 一 4 和 5 一 7。 此 时 队列 为 空 。 


edgeTo[] 
edgeTo[] 


CE 
© 
¥| 
辣 
|/ 
庶 
人 


© 
5 © 
@ © 2=>7 
每 一 轮 队列 中 的 有 
ver edgeTo[] edgeTo[] 
© s (3 
二 © “80 
四 (9 5 有 (4) 6) 3 7->5 
红色 : 本 轮 的 有 效 顶 点 edgeTo[] edgeTo[] 
0 6->0 0 6->0 
1 
, © @ @ 2 2 OO 2 6->2 
© 3 1->3 
2 (0) 4 6->4 oS 0 4 6->4 
VE @ 6 326 
黑色 : 下 一 轮 的 有 效 顶 点 7 2->7 


图 4. 
4.4.6.6 实现 


其 他 的 数据 结构 : 
口 一 条 用 来 保存 即将 被 放 


顶点 重复 插入 队列 。 


4.22 Bellman-Ford 算法 的 轨迹 ( 另 见 彩 插 ) 


根据 这 些 描述 实现 Bellman-Ford 算法 所 需 的 代码 非常 少 ， 如 算法 4.11 所 示 。 它 基于 以 下 两 种 


松 的 顶点 的 队列 queue; 


口 一 个 由 顶点 索引 的 boolean 数组 onQ[] ， 用 来 指示 顶点 是 否 已 经 存在 于 队列 中 ， 以 防止 将 
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首先 ,将 起 点 s 加 入 队列 中 ， 

然后 进入 一 个 循环 ， 其 中 每 次 f 
都 从 队列 中 取出 一 个 顶点 并 将 
其 放松 。 要 将 一 个 顶点 插入 队 
列 , 需要 修改 4.4.2.5 节 框 注 “ 边 
的 松 驰 ”中 relaxQ， 方法 的 实 
现 ， 以 便 将 被 成 功放 松 的 边 所 
指向 的 顶点 加 入 队列 中 ， 如 右 
边框 注 “Bellman-Ford 算法 中 
的 放松 操作 ”所 示 。 这 些 数 据 
结构 能 够 保证 : 
口 队列 中 不 出 现 重复 的 顶点 ; 
口 在 某 一 轮 中 , 改变 了 edg- ! 

eTo[] 和 distTo[] 的 值 

的 所 有 顶点 都 会 在 下 一 轮 

中 处 理 。 


下 


eh 
L 


1 
if 


要 完整 地 实现 该 算法 ， 我 们 就 需要 保证 在 广 轮 后 算法 能 
放松 的 轮 数 。 我 们 的 实现 BellmanFordSP (算法 4.11 ) 使 用 了 另 一 种 方法 ， 将 会 


它 会 在 有 问 


命题 Y。 对 于 任意 食 有 严 个 顶点 的 加 权 有 向 


Bellman-Ford 算法 解决 最 短路 径 问题 (或 者 找到 从 s 可 达 的 负 权 重 环 ) 所 需 的 时 间 与 BV 成 J 


空间 和 严 成 正比 。 


for (DirectedEdge e 


private void relax(EdgeWeightedDigraph G, int v) 


cl (ev 


int w = e.toQO; 


(distTo[w] > distTo[v] + e.weight()) 


distTo[w] = 
edgeTo[w] = e; 
le a 

{ 


人 + e.weight(); 


queue.enqueue (w); 
onQ[w] = true; 


} 


(cost++ % G.V() == 
findNegativeCycle(); 


Bellman-Ford 算 法 中 的 放松 操作 


图 的 edgeTo[] 中 检测 是 否 存在 负 权 重 环 ， 如 果 找 到 则 结束 运行 。 


证 明 。 如 果 不 存在 从 s 可 达 的 负 权 重 环 ， 算 法 会 根据 命题 又 在 进行 大 1 轮 放松 操作 后 结束 ( 
为 所 有 最 短路 径 含 有 的 边 数 都 不 大 于 大 1 ) 。 如 果 的 确 存在 一 个 从 s 可 达 的 负 权 重 环 ， 那 么 
列 永远 不 可 能 为 空 。 根 据 命题 XX， 在 第 信 轮 放松 之 后 ，edgeTo[] 数组 必然 会 包含 一 条 含有 


个 环 的 路 径 (从 某 个 顶点 w 回 到 它 
次 且 s 到 w 的 第 二 


自己 ) 且 该 环 的 权重 必然 是 负 的 。 因 
次 出 现 处 的 路 径 长 度 小 于 s 到 w 的 第 一 


够 终止 。 实 现 它 的 一 种 方法 是 显 式 记录 
在 4.4.6.8 节 详 述 : 
图 和 给 定 的 起 点 s， 在 最 坏 情 况 下 基于 队列 的 


Ee; 


队 


为 w 会 在 路 径 上 出 现 
次 出 现 的 路 径 长 度 。 在 最 坏 情况 下 


该 算法 的 行为 和 通用 算法 相似 并 会 将 所 有 的 巨 条 边 全 部 放松 三 轮 。 


9? 


算法 4.11 基于 队列 的 Bellman-Ford 算法 
public class Bel1lmanFordSP 
{ 


private double[] distTo; 

private DirectedEdge[] edgeTo; 
private boolean[] onQ; 

private Queue<Integer> queue; 

private int cost; 

private Iterable<DirectedEdge> cycle; 


// 从 起 点 到 某 个 顶点 的 路 径 长 度 
// 从 起 点 到 某 个 顶点 的 最 后 一 条 边 
// 该 顶点 是 否 站 在 于 队列 

// 正在 被 放松 的 顶点 

// relax( 〇 的 调用 次 数 

// edgeTo[] 中 的 是 否 有 负 权 重 环 
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public BellmanFordSP(EdgeWeightedDigraph G, int s) 
{ 


distTo = new double[G.VO]; 
edgeTo = new DirectedEdge[G.VO]; 
onQ = new boolean[G.VO]; 
dueue = new Queue<Integer>(); 
for (int v = 0; Vv < G.VO; v++) 
distTo[v] = Double.POSITIVE_INFINITY ; 
distTo[s] = 0.0; 
dueue .enqueue(s) ; 
onQ[s] = true; 
while (!queue.isEmpty() && !hasNegativeCycle()) 


{ 
int v = queue.dequeue(); 
onQ[v] = false; 
relax(G, v); 

} 


} 


private void relax(EdgeWeightedDigraph G,v) 
// 4.4.6.6 节 框 注 “Be11man-Ford 算 法 的 放松 操作 ” 


public double distTo(int v) // 最 短路 径 树 实现 中 的 标准 查询 算法 
public boolean hasPathTo(int v) // 请 见 4.4.2.6 节 框 注 “最 短路 径 


public Iterable<DirectedEdge> pathTo(int v) // API 的 查询 方法 ” 


private void findNegativeCycle() 
public boolean hasNegativeCycle() 
public Iterable<Edge> negativeCycle(Q) 


// 请 见 4.4.6.8 节 框 注 “Bellman-Ford 算 法 的 负 权 重 检测 方法 ” 


} 

Bellman-Ford 算法 的 实现 修改 了 relax[ 〇 方法 ,将 被 成 功放 松 的 边 指 向 的 所 有 顶点 加 入 到 一 条 
FIFO 队列 中 ( 队列 中 不 出 现 重复 的 顶点 ) 并 周期 性 地 检查 edgeTo[] 表示 的 子 图 中 是 否 存 在 负 权 重 环 ( 请 
见 正文 ) 。 674 


基于 队列 的 Bellman-Ford 算法 能 够 准确 有 效 地 解决 最 短路 径 问题 并 且 在 实际 中 被 广泛 应 用 ， 甚 
至 包括 正 权重 的 情况 。 例 如 ， 如 图 4.4.23 所 示 ， 在 含有 250 个 顶点 的 样 图 中 ,算法 进行 了 14 轮 操 
作 且 对 于 相同 的 问题 比较 路 径 长 度 的 次 数 少 于 Dijkstra 算法 。 
4.4.6.7 ” 负 权 重 的 边 

图 4.4.24 显示 了 Bellman-Ford 算法 在 处 理 含有 负 权 重 边 的 有 向 图 的 轨迹 。 首 先 将 起 点 加 入 队列 
queue， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 


口 放松 边 0 一 2 和 0 一 4 并 将 顶点 2、4 加 入 队列 。 

口 放松 边 2 一 7 并 将 顶点 7 加 入 队列 。 放 松 边 4 一 5 并 将 顶点 5 加 入 队列 。 然 后 放松 失效 的 边 
4 一 7。 

口 放松 边 7 一 3 和 5 一 工 并 将 顶点 3 和 工 加 入 队列 。 放 松 失效 的 边 5 一 4 和 5 一 7。 

口 放松 边 3 一 6 并 将 项 点 6 加 入 队列 。 放 松 失效 的 边 1 一 3。 

口 放松 边 6 一 4 并 将 项 点 4 加 入 队列 。 这 条 负 权 重 边 使 得 到 顶点 4 的 路 径 变 短 ， 因 此 它 的 边 需 


要 被 再 次 放松 (它们 在 第 二 轮 中 已 经 被 放松 过 ) 。 从 起 点 到 顶点 5 和 41 的 距离 已 经 失效 并 
会 在 下 一 轮 中 修正 。 
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口 放松 边 4 一 5 并 将 顶点 5 加 入 队列 。 放 松 失效 的 边 
4 一 7。 
口 放松 边 5 一 1 并 将 顶点 1 加 入 队列 。 放 松 失 效 的 边 
5 一 4 和 5 一 7。 
口 放松 失效 的 边 1 一 3。 队列 为 空 。 

在 这 个 例子 中 ， 最 短路 径 树 就 是 一 条 从 顶点 0 到 顶点 
1 的 路 径 。 从 顶点 4、5 和 工 指出 的 所 有 边 都 被 放松 了 两 次 。 
对 照 这 个 例子 重读 命题 X 的 证 明 能 够 帮助 你 更 好 的 理解 这 
个 算法 。 
4.4.6.8” 负 权重 环 的 检测 

实现 BellmanFordSP 会 检测 负 权 重 环 来 避免 陷入 无 
限 的 循环 中 。 我 们 也 可 以 将 这 段 检测 代码 独立 出 来 使 得 用 
例 可 以 检查 并 得 到 负 权 重 环 。 因 此 我 们 为 表 4.4.4 中 的 API 
添加 以 下 方法 请 见 表 4.4.8。 


表 4.4.8 ”为 处 理 负 权 重 环 扩展 最 短路 径 的 API 


boolean hasNegativeCycle() 是 否 含有 人 负 权 
重 


Iterable<DirectedEdge> negativeCycle() 得 到 负 权 重 环 
(如 果 没 有 则 
返回 nu11) 


实现 这 些 方法 并 不 困难 ， 如 442 页 的 代码 所 示 。 在 
BellmanFordSP 的 构造 函数 运行 之 后 ,命题 了 说明 在 将 
所 有 边 放松 亚 轮 之 后 当 且 仅 当 队列 非 空 时 有 向 图 中 才 存 
在 从 起 点 可 达 的 负 权 重 环 。 如 果 是 这 样 ，edgeTo[] 数组 
所 表示 的 子 图 中 必然 含有 这 个 负 权重 环 。 因 此 ， 要 实现 
negativeCycle()， 会 根据 edgeTo[] 中 的 边 构造 一 幅 加 
权 有 向 图 并 在 该 图 中 检测 环 。 我 们 会 使 用 并 修改 4.2 节 中 
的 Di rectedCycle 类 来 在 加 权 有 向 图 中 寻找 环 (请 见 练 
习 4.4.12 ) 。 这 种 检查 的 成 本 分 为 以 下 几 个 部 分 。 

口 添加 一 个 变量 cycle 和 一 个 私有 函数 findNega- 
tiveCycle()。 如 果 找 到 负 权 重 环 ， 该 方法 会 将 
cycle 的 值 设 为 含有 环 中 所 有 边 的 一 个 迭代 器 ( 如 
果 没 有 找到 则 设 为 nu11 ) 。 

口 每 调用 次 relax0Q 方法 后 即 调 用 findNegati- 
veCycle() 方法 。 


Ei] 


红色 表示 的 是 队列 中 的 边 


10 


13 


最 短 
路 径 树 


2 


图 4.4.23 Bellman-Ford 算法 (250 个 
顶点 ) 〈 另 见 彩 插 ) 


tinyEWDn .txt 


4->5 0.35 Se edgeTo[] 
5->4 0.35 
4->7 0.37 4 @) © © 
5->7 0.28 7 @ @) 
7->5 0.28 5 
5->1 0.32 (0) 5 4->5 
0->4 0.38 (4) + @ 
0->2 0.26 起 点 7 2->7 
7->3 0.39 
1->3 0.29 edgeTo[] 
2->7 0.34 
6 7 @) OO 0 
3->6 0.52 3 @) 3 7->3 
6->0 -1.40 1 
6->4 -1.25 (0) 
9 © 
edgeTo[] 
3 
(0) 
(4) @ 6 3->6 
edgeTo[] 
6 OO LL 5->1 
4 (5) 
0 4 6->4 
(0) 5 4->5 
CA 名 
edgeTo[] 
4 下 5=31 
5 (5) 中 3 
© 5 4->5 
的 二 Eee 
edgeTo[] 
0 
1 5->1 
(5) D 2 0->2 
3 7->3 
4 6->4 
( (0) 5 4->5 
定语 6 3->6 
9) 7 2->7 
图 4.4.24 ”Bellman-Ford 算法 的 轨迹 (图 中 含有 人 负 权 重 边 ) ( 另 
这 种 方法 能 够 保证 构造 函数 中 的 循环 必然 会 终止 。 男 外 ， 明 


图 中 检测 负 权 本 


E 环 的 存在 只 需 稍 作 扩 


日 例 可 以 调用 hasNegativeCycle() 
来 判断 是 否 存在 从 起 点 可 达 的 负 权重 环 ( 并 用 negativeCycle() 来 获取 这 个 环 ) 。 要 在 任意 有 向 
展 即 可 ( 请 见 练习 4.4.43 ) 。 


见 彩 插 ) 
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distTo[] 


0.60 


distTo[] 
1.05 


0:99 


distTo[] 


distTo[] 


e035 


distTo[] 


lJ.05 


0.61 


distTo[] 


OPOOOODO 
TD 
O 


了 有 效 ! 
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图 4.4.25 是 Bellman-Ford 算 法 在 
一 幅 含 有 负 权 重 环 的 有 向 图 中 的 运行 轨 { 
迹 。 头 两 轮 放松 操作 与 处 理 tnyEWDn. 
txt 时 是 一 样 的 。 在 第 三 轮 中 ， 算 法 
在 放松 了 边 7 一 3 和 5 一 1 并 将 顶点 
3 和 1 加 入 队列 后 开始 放松 负 权 重 边 
5 一 4。 在 这 次 放松 操作 中 算法 发 现 了 
一 个 负 权 重 环 4 一 5 一 4。 它 将 5 一 4 
加 入 最 短路 径 树 中 并 在 edgeTo[] 中 将 
环 和 起 点 隔离 开 来 。 从 这 时 开始 ， 算 法 
沿 着 环 继续 运行 并 会 减少 到 达 所 遇 到 的 
所 有 顶点 的 距离 , 直至 检测 到 环 的 存在 ， 


} 


{ 


private void findNegativeCycleQO) 


int V = edgeTo.length; 
EdgeWeightedDigraph spt; 
spt = new EdgeWeightedDigraph(V); 
Formeme Vv = O00V <V, Vi) 
if (edgeTo[v] != null) 
spt.addEdge (edgeTo[v]); 


EdgeWeightedCycleFinder cf; 
cf = new EdgeWeightedCycleFinder(spt); 


cycle = cf.cycleQO); 


public boolean hasNegativeCycle() 


return cycle != null; } 


public Iterable<DirectedEdge> negativeCycle() 


此 时 队列 非 空 。 环 被 保存 在 edgeTo[] { 
中 ，findNegativeCycleQ 会 在 其 中 
找到 它 。 


tinyEWDnc.txt queue 
4->5 0.35 
354 =0:66 
4->7 0.37 。 (5) © 
5->7 0.28 7 @, 
7->5 0.28 5 (D) 
5=51 0532 
0->4 0.38 (4) # 
0->2 0.26 起 点 
7->3 0.39 
1->3 0.29 
2->7 0.34 
6->2 0.40 . (5) @ 
3->6 0.52 3 (7 ) 
6->0 0.58 二 I (0) 
6->4 0.93 4 


AND 上 WwW 
w 


return cycle; } 


Bellman-Ford 算 法 的 负 权重 环 检测 方法 


edgeTo[] distTo[] 


edgeTo[] distTo[] 


G) 1 5->1 1.05 
QO) 3 7->3 0.99 
4 5->4 0.07 < 路径 0 一 4 一 5 一 4 


的 长 度 


edgeTo[] distTo[] 


4->5 0.42 
(©) 6 3->6 二 5 
7 4->7 0.44 


图 4.4.25 ”Bellman-Ford 算法 的 轨迹 


图 4.4.25 ”Bellman-Ford 算法 的 轨迹 〈 含 有 负 权重 环 的 图 ， 另 见 彩 插 ) 
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4.4.6.9 套 汇 

假设 有 一 个 基于 商品 贸易 的 金融 交易 市 场 。 以 下 框 注 显示 的 是 示例 文件 rates.txt 的 内 容 ， 你 可 
以 在 任意 货币 兑换 比例 的 表格 中 找到 类 似 的 内 容 。 文 件 的 第 一 行 是 货币 的 种 类 数 V， 接 下 来 的 每 一 
行 都 对 应 一 种 货币 ， 开 头 是 该 货币 的 名 称 ， 紧 接着 是 它 和 其 他 货币 兑换 的 汇率 。 简 单 起 见 ， 这 个 例 
子 中 只 包含 了 能 够 在 现代 市 场 中 进行 交易 的 数 百 种 货币 中 的 五 种 : 美元 (USD ) 、 欧 元 (EUR ) 、 
英镑 (GBP ) 、 瑞 士 法 郎 (CHF ) 和 加 元 (CAD ) 。 第 s 行 的 第 t 个 数字 表示 一 个 汇率 ， 即 购买 一 
个 单位 的 第 s 行 的 货币 需要 多 少 个 单位 的 第 七 行 的 货币 。 例 如 ， 这 张 表 告诉 我 们 ，1000 美元 能 够 
购买 741 欧元 。 这 张 表格 等 价 于 一 幅 完 全 的 加 权 有 向 图 ， 顶 点 对 应 着 货币 ， 边 则 对 应 着 汇率 。 权 重 
为 x 的 边 s 一 t 表 示 从 货币 s 到 货币 七 的 汇率 为 x。 这 张 图 中 的 路 径 则 表示 多 次 兑换 。 例 如 ， 将 权 
重 为 y 的 边 t 一 u 和 刚才 的 边 结合 起 来 就 得 到 了 一 条 路 径 s 一 t 一 u， 即 一 个 单位 的 货币 s 可 以 竞 
换 为 xy 个 单位 的 货币 u。 比 如 ， 欧 元 可 以 兑换 得 到 1012.206=741*1.366 加 元 。 注 意 ， 这 比 直接 用 
美元 兑换 的 汇率 更 高 。 你 可 能 会 以 为 xy 总 是 应 该 等 于 边 s 一 u 的 权重 , 但 这 张 表格 所 表示 的 金融 
系统 非常 复杂 ， 并 不 总 是 能 够 保证 这 种 一 致 性 。 因 此 ， 找 到 所 有 从 s 到 u 的 路 径 中 所 有 边 的 权重 之 
职 最 大 者 就 是 我 们 最 感 兴趣 的 问题 。 一 种 更 有 趣 的 情况 是 ， 所 有 边 的 权重 之 积 小 于 从 终点 指向 起 点 
的 边 的 权重 。 在 这 个 示例 中 ,假设 边 u 一 s 的 权重 为 z 且 xyz>1。 那 么 环 s 一 t 一 u 一 s 就 能 够 用 
一 个 单位 的 货币 s 得 到 多 于 一 个 单位 (xyz) 的 货币 s。 换 句 话 说 ， 将 货币 s 兑换 为 t、u 并 最 后 
再 兑换 为 s 就 可 以 得 到 100(xyz-1) 的 利润 。 例 如 ， 如 果 将 1012.206 加 元 重新 兑换 为 美元 ， 可 以 
得 到 1012.206*0.995=1007.14497 美元 ， 也 就 是 得 到 了 7.14497 美元 的 利润 。 这 看 起 来 似乎 不 多 ， 
日 一 个 外 汇 交 易 商 可 能 会 用 一 百 万 美元 并 在 每 分 钟 都 进行 一 遍 这 样 的 交易 ， 也 就 是 说 他 每 分 钟 的 
利润 将 超过 7000 美元 ， 或 者 说 每 小 时 的 利润 超过 420 000 美元 ! 这 就 是 套 汇 交易 的 一 个 例子 ， 请 
见 图 4.4.26。 如 果 没 有 外 力 的 限制 ， 
比如 手续 费 或 是 交易 金额 上 限 ， 交 易 OE FS -让 


Hn 


| 


商 可 以 从 其 中 获取 无 限 的 利润 。 即 使 5 

eS USD 1 0.741 0.657 1.061 1.005 
是 在 现实 世界 中 的 这 些 限制 下 ， 套 汇 EUR 1.349 1 0.888 1.433 1.366 
的 利润 仍然 是 非常 高 的 。 这 个 问题 和 CBP 1.521 1.126 1 1.614 1.538 
a CHF 0.942 0.698 0.619 1 0.953 
最 短路 径 问 题 有 什么 关系 呢 ? 要 回答 CAD 0.995 0.732 0.650 1.049 1 


这 个 问题 非常 简单 。 


命题 Z。 套 汇 问 题 等 价 于 加 权 有 向 图 中 的 负 权 重 环 的 检测 问题 。 


方 

证 明 。 取 每 条 边 权 重 的 自然 对 数 并 取 反 ， 这 样 在 原始 问题 中 所 有 边 的 权重 之 积 的 计算 就 转化 为 
了 新 图 中 所 有 边 的 权重 之 和 的 计算 。 任 意 权重 之 积 Winw… 即 对 应 -In0w)-In0o) 一 -no 之 和 。 
转换 后 边 的 权重 可 能 为 正 也 可 能 为 负 。 一 条 从 Vv 到 w 的 路 径 表 示 将 货币 v 兑换 为 货币 w， 图 中 
的 任意 负 权 重 环 者 是 一 次 套 汇 的 好 机 会 ( 请 见 图 4.4.27 ) 。 


在 这 个 示例 中 ,货币 可 以 任意 兑换 , 因此 有 向 图 是 完全 的 ,任意 负 权重 环 都 是 从 任意 顶点 可 达 的 。 
在 一 般 的 商品 交易 中 ,有 些 边 可 能 并 不 存在 ， 因 此 需要 练习 4.4.43 所 述 的 只 有 一 个 参数 的 构造 函数 。 
目前 没有 已 知 的 寻找 最 佳 套 汇 机 会 (图 中 负 权 重 最 小 的 环 ) 的 高 效 算法 ( 图 的 规模 不 需要 很 大 就 能 
使 所 需 的 计算 量 超 过 计算 机 的 承受 能 力 ) ， 但 找 出 任意 套 汇 机 会 的 最 快 算法 仍然 是 很 重要 的 一 一 在 
第 二 快 的 算法 找到 任何 套 汇 机 会 之 前 ， 使 用 这 种 算法 的 商人 很 可 能 已 经 可 以 系统 地 排除 许多 不 佳 的 
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套 汇 机 会 了 。 


-ln(.741) -1n(1.366) -ln(.995) 


¥ 1 


0.741 * 1.366 * .995 = 1.00714497 


将 每 个 权 
重 w 替 换 
为 -1n Cw 


.2998 - .3119 + .0050 = -.0071 


图 4.4.26 一 次 套 汇 机 会 图 4.4.27 一 个 负 权 重 环 就 表示 了 一 次 套 汇 的 机 会 
货币 兑换 中 的 套 汇 
public class Arbitrage 
{ 
public static void main(String[] args) 
{ 
int V = StdIn.readInt(); 
String[] name = new String[V]; 
EdgeWeightedDigraph G = new EdgeWeightedDigraph(V); 
for (int V = 0; Vv < V; v++) 
{ 
name[v] = StdIn.readString() ; 
for (Cint w = 0; w < V; w++) 
{ 
double rate = StdIn.readDouble() ; 
DirectedEdge e = new DirectedEdge(v, w, -Math.log(rate)); 
G.addEdge(e); 
} 
} 
BellmanFordSP spt = new BellmanFordSP(G, 0); 
if (spt.hasNegativeCycle()) 
{ 
double stake = 1000.0; 
for (DirectedEdge e : spt.negativeCycle()) 
{ 
StdOut.printf("%10.5f %s", stake, name[e.from()]); 
stake *= Math.exp(-e.weight()); 
StdOut.printf("= %10.5f %sNn"，stake，name[e.to()]) ; 
} 
} 
else Stdout.println(C" No arbitrage opportunity"); 
} 


这 段 代 码 调 


图 表示 汇率 表 ， 然 后 
找 图 中 的 负 权 重 环 。 


] 了 BellmanFordSP 类 来 寻 
找 汇率 表 中 的 套 汇 机 会 。 它 首先 使 用 完全 有 向 
用 Bellman-Ford 算法 来 寻 


% java Arbitrage 
1000.00000 USD 

741.00000 EUR 
1012.20600 CAD 
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EeesRxi 


= 741.00000 EUR 
= 1012.20600 CAD 
= 1007.14497 USD 


命题 Z 的 证 明 即 使 在 没有 套 汇 机 会 的 情况 下 仍然 有 用 ， 因 为 它 将 货币 部 换 问题 转化 为 了 一 个 
最 短路 径 问 题 。 因 为 对 数 函 数 是 单调 的 ( 且 会 对 计算 的 结果 取 反 ) ， 当 边 的 权重 之 和 最 小 时 汇率 
之 积 正好 最 大 。 尽 管 边 的 权重 可 正 可 负 ， 从 v 到 w 的 最 短路 径 仍然 是 将 货币 v 兑换 为 货币 w 的 最 


好 方法 。 


4.4.7 展望 


表 4.4.9 总 结 了 本 节 
的 第 一 个 条 件 是 问题 所 涉及 的 有 向 图 
重 的 环 吗 ? 除了 这 些 基 本 性 质 之 外 ， 加 权 有 向 图 


我 们 所 学 习 到 的 各 种 最 短路 径 算法 的 重要 性 
的 基本 性 质 。 它 含有 负 权 习 


要 通过 实验 找 出 最 佳 的 算法 。 


表 4.4.9 ”最短 路径 算法 的 性 能 特点 


质 。 在 这 些 算法 中 进行 选择 
的 边 吗 ? 它 含有 环 吗 ? 它 含有 负 权 
的 特性 多 种 多 样 ， 因 此 在 有 多 个 合适 的 选择 时 就 需 


路 径 长 度 的 比较 次 数 
算 法 局 限 (增长 的 数量 级 ) ”| 所 需 空间 优势 
一 般 情 况 | 最 坏 情况 
Dijkstra 算法 〈 即时 版 本 ) ”| 边 的 权重 必须 为 正 Elogy | Elogy y | 
拓扑 排序 人 E+V E+V V 是 无 环 图 中 的 最 优 算法 
Bellman-Ford 算 法 ( 基于 队列 ) | 不 能 存在 负 权 重 环 E+V VE V 适用 领域 广泛 


历史 资料 


自 20 世纪 50 年 代 以 来 ， 最 短路 径 算法 就 已 经 被 深入 地 研究 并 被 广泛 应 


] 了。 计算 最 短路 径 的 


Dijkstra 算法 的 历史 和 计算 最 小 生成 树 的 Prim 算法 的 历史 背景 相似 (并 且 也 相关 ) 。Dijkstra 算法 


既 指 的 是 按照 项 点 距离 起 点 的 远近 顺序 构造 最 短路 径 树 的 算法 ， 也 指 的 是 该 算法 的 实现 ， 
最 适合 用 邻接 矩阵 表示 的 算法 。 ) ， 因 为 Dijkstra 在 1959 年 的 一 篇 论文 中 发 表 了 上 述 观 点 (并且 
证 明了 这 种 方法 同样 也 可 以 用 来 计算 最 小 生成 树 ) 。 稀 玻 图 算法 的 伯 
实现 的 改进 ， 不 仅仅 针对 最 短路 径 问 题 。 


( 它 也 是 


能 改进 来 自 于 之 后 对 优先 队列 
这 其 中 最 重要 的 是 Dijkstra 算法 性 能 的 改进 。 


( 例如， 使 


用 裴 波 那 契 摊 后 最 坏 情况 下 的 复杂 度 可 以 减少 到 太太 og 广 ) 。 实 践 证 明 Bellman-Ford 算法 十 分 有 效 


并 且 应 


领域 广泛 ， 特 别 是 处 理 一 般 怕 


E 的 加 权 有 向 图 。Bellman-Ford 算法 计算 普通 应 用 的 运行 时 间 


常常 是 线性 的 ， 在 最 坏 情况 下 它 的 运行 时 间 是 殉 。 最 坏 情况 下 的 运行 时 间 为 线性 级 别 的 稀 玻 图 的 


最 短路 径 算法 是 一 个 仍 在 研究 之 中 的 问题 。 
世纪 50 年 代 。 尽 管 我 们 已 经 看 到 许多 其 他 的 图 算法 性 能 得 
不 含 负 权重 环 ) 的 且 在 最 坏 情况 下 公 


Bellman-Ford 算法 最 早 由 L.Ford 和 R.Bellman 发 表 于 20 


到 了 大 幅 改 进 , 但 是 处 理 含有 负 权 重 边 (但 


能 更 好 的 有 向 图 算法 还 没有 出 现 。 


679 
2 
681 


446 区 第 4 章 图 
图 答 颖 
问 ”为 什么 要 分 别 为 无 向 图 、 有 向 图 、 加 权 无 向 图 、 加 权 有 向 图 定义 不 同 的 数据 类 型 ? 
答 这 么 做 是 为 了 使 用 例 代 码 更 清晰 ， 同 时 也 是 为 了 更 加 简洁 和 高 效 地 实现 没有 权重 的 图 。 在 需 
要 处 理 各 种 图 的 应 用 或 系统 中 ， 软 件 工程 中 的 标准 做 法 就 是 先 定 义 一 种 抽象 数据 结构 并 根据 
它 衍 生出 其 他 抽象 数据 结构 ， 也 就 是 4.1 节 中 学 习 的 无 向 图 Graph，4.2 节 中 学 习 的 有 向 图 


Digraph，4.3 节 中 学 习 的 加 权 无 向 图 EdgeweightedGraph， 或 是 在 本 节 中 学 习 的 加 权 有 向 图 
EdgeweightedDigraph。 


问 


构造 一 幅 EdgeweightedDigraph (无 向 图 上 
行 Dijkstra 算法 即 可 。 如 细 


084 


图 练习 


4.4.1 


4.4.2 


4.4.3 


4.4.4 


4.4.5 


4.4.6 
4.4.7 


4.4.8 


4.4.9 


4.4.10 ”将 练习 4.4.4 中 定义 的 


4.4.11 


4.4.12 


4.4.13 


如 何在 〈 加 权 ) 无 向 
答 ” 对 于 边 的 权重 均 为 正 的 图 ，Dijkstra 算法 可 以 解决 这 个 问题 。 只 需 根据 给 定 的 EdgeweightedGraph 
的 每 条 边 都 对 应 着 有 向 图 中 的 两 条 方向 不 同 的 边 ) 
边 的 权重 可 能 为 负 ， 高 效 的 算法 也 是 存在 的 ， 但 它们 比 Bellman-Ford 算 


为 Edgeweighted 


为 稠密 图 实现 一 种 使 月 


真 假 判 断 : 将 每 条 边 的 权重 都 加 上 一 个 常数 不 会 改变 单 点 


图 中 找到 最 短路 径 ? 


Digraph 类 实现 toString() 方法 。 


EdgeweightedDigraph 类 。 


在 tinyEWD.txt 中 
并 使 


2 


<HTL 


A 


实 
路 径 o 


的 


] 父 链接 数组 表示 这 棵 树 。 将 图 中 所 有 边 的 方向 反 转 
在 tinyEWD.txt 中 (请 见 图 4.4.4 ) 改变 边 0 一 2 的 方向 。 画 出 该 加 权 有 向 
两 棵 不 同 的 最 短路 径 树 。 
! 用 即时 版 本 的 Dijkstra 算法 计算 练习 4.4.5 所 定义 的 图 的 最 短路 径 树 的 轨迹 。 

岗 DijkstraspP 的 另 一 个 版 本 ， 支 持 一 个 方法 来 返回 一 幅 加 权 有 向 图 中 从 s 到 t 的 另 一 条 最 短 
(如 果 从 s 到 ft 的 最 短路 径 只 有 一 条 则 返 
一 幅 有 向 图 的 直径 指 的 是 连接 任意 7 
] 例 ， 找 出 边 的 权重 非 负 的 给 定 EdgeweightedDigraph 图 的 直径 。 
表 4.4.10 来 自 于 一 张 很 早 以 前 出 版 的 公路 地 图 ， 它 显示 的 是 城市 之 间 的 最 短路 径 的 长 度 。 这 张 表 
中 有 一 个 错误 。 改 正 这 个 错误 并 新 建 一 张 表 来 说 明 最 短路 径 是 哪 条 。 

了 向 图 中 的 边 看 作 无 向 边 ， 即 每 条 边 对 应 加 权 


忽略 平行 边 。 
(请 见 图 4.4.4 ) 性 


时 .全 


取 忌 


日 邻接 矩阵 表示 法 ( 用 二 维 数组 保存 边 的 权重 ， 


| 去 顶点 7。 画 出 加 权 有 向 


回答 相同 的 问题 。 


加 nul1。 ) 


天 个 顶点 的 所 有 最 短路 径 


权重 相同 的 边 。 为 对 应 的 加 权 有 向 图 回答 练习 4.4.6 中 的 问 


使 
图 所 需 的 内 存 。 


日 
题 。 


路 径 问 题 的 答案 。 


执 


请 参考 练习 4.3.10 ) 的 


图 中 以 顶点 0 为 起 点 的 最 短路 径 树 ， 


图 中 以 顶点 2 为 起 点 的 


P 的 最 大 长 度 。 编 写 一 个 DijkstraSP 


向 图 中 的 两 条 方向 不 同 但 


j 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedDigraph 表示 一 幅 含 有 7 个 顶点 各 条 边 的 


修改 4.2 节 中 的 DirectedCycle 类 和 Topological 类 ， 使 之 使 用 本 节 中 的 EdgeWeightedDigraph 
类 和 DirectedEdge 类 的 API 并 实现 EdgeWeightedCycleFinder 类 和 EdgeWeightedTopological 类 。 
Pp (请 见 图 4.4.4 ) 删 去 边 5 一 7， 用 Dijkstra 算法 计算 所 得 的 有 向 图 的 最 短路 径 


从 tinyEWD.txt 9 


树 并 按照 正文 中 


的 样式 给 出 算法 的 轨迹 。 
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表 4.4.10 
普罗 维 登 斯 威 斯 特 里 新 伦敦 诺 威 治 
普罗 维 登 斯 = 53 54 48 
威 斯 特 里 53 一 18 101 
新 伦敦 54 18 一 12 
诺 威 治 48 101 12 一 


4.4.14 给 出 使 用 4.4.6.1 节 和 4.4.6.2 节 的 两 种 尝试 处 理 图 4.4.19 的 tinyEWDn.txt 所 得 到 的 路 径 。 


4.4.15 ”如 果 从 顶点 s 到 v 的 路 径 上 存在 一 个 负 权重 环 ， 调 用 Bellman-Ford 算法 的 pathTo(v) 方法 会 发 
生 什 么 ? 


4.4.16 假设 用 EdgeweightedGraph 中 的 每 条 边 Edge 都 替换 为 两 条 (两 个 方向 各 一 条 ) Directed- 
Edge 的 方式 将 EdgeweightedGraph 类 转化 为 EdgeweightedDigraph 类 ( 如 答疑 中 关于 
Dijkstra 算法 的 部 分 所 述 ) 然 后 再 使 用 Bellman-Ford 算 法 处 理 它 .说明 为 什么 这 种 方法 大 错 特 错 。 

4.4.17 在 Bellman-Ford 算法 中 如 果 一 个 顶点 在 同一 轮 中 被 两 次 加 入 队列 会 发 生 什么 ? 
解答 : 算法 所 需 的 运行 时 间 将 会 达到 指数 级 。 例 如 ， 描 述 一 幅 边 的 权重 全 部 为 -1 的 加 权 
有 向 完全 图 中 Bellman-Ford 算法 的 执行 情况 。 

4.4.18 ”编写 一 个 CPM 的 用 例 来 打印 出 所 有 的 关键 路 径 。 

4.4.19 找 出 正文 中 的 例子 里 权重 最 低 的 环 〈 即 最 佳 套 汇 机 会 ) 。 

4.4.20 ”从 网 上 或 者 报纸 上 找到 一 张 汇率 表 并 用 它 构 造 一 张 套 汇 表 。 注 意 : 不 要 使 用 根据 知 干 数据 计算 
得 出 的 汇率 表 ， 它 们 的 精度 有 限 。 附 加 题 ， 从 汇率 市 场 上 赚 点 外 快 ! 


4.4.21 用 Bellman-Ford 算法 计算 练习 4.4.5 中 的 加 权 有 向 图 的 最 短路 径 树 并 按照 正文 中 的 样式 给 出 算法 “1685 


的 轨迹 。 687 


mn 


图 提高 是 


4.4.22 ”顶点 的 权重 。 证 明 ， 要 得 到 顶点 也 有 非 负 权 重 的 加 权 有 向 图 中 的 最 短路 径 (路 径 的 权重 为 路 径 
上 的 顶点 权重 之 和 ) ， 可 以 通过 构造 一 幅 只 有 边 含有 权重 的 加 权 有 向 图 解决 。 

4.4.23 给 定 两 点 的 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 的 改进 版 本 解决 加 权 有 向 图 中 给 
定 两 点 的 最 短路 径 问 题 。 


4.4.24 ”多 起 点 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 解决 加 权 有 向 图 中 的 多 起 点 最 短路 径 
问题 ， 其 中 边 的 权重 均 为 正 : 给 定 一 组 起 点 ， 找 到 相应 的 最 短路 径 森 林 并 实现 一 个 方法 为 用 例 
返回 从 任意 起 点 到 达 每 个 顶点 的 最 短路 径 。 提 示 : 添加 一 个 伪 顶 点 和 从 该 顶点 指向 每 个 起 点 的 
一 条 权重 为 零 的 边 ， 或 者 在 初始 化 时 将 所 有 起 点 加 入 优先 队列 并 将 它们 在 distTo[] 中 对 应 的 值 
均 设 为 0。 


4.4.25 ”两 个 顶点 集合 之 间 的 最 短路 径 。 给 定 一 幅 边 的 权重 均 为 正 的 有 向 图 和 两 个 没有 交集 的 顶点 集 5S 
和 了， 找到 从 S 中 的 任意 顶点 到 达 了 中 的 任意 顶点 的 最 短路 径 。 你 的 算法 在 最 坏 情 况 下 所 需 的 时 
间 应 该 与 BlogV 成 正比 。 
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089 


4.4.26 


4.4.27 


4.4.28 


4.4.29 


4.4.30 


4.4.31 


4.4.32 


4.4.33 


4.4.34 


4.4.35 


4.4.36 


4.4.37 


4.4.38 


稠密 图 中 的 单 点 最 短路 径 。 实 现 另 一 个 版 本 的 Dijkstra 算法 ， 使 之 能 够 在 与 天 成 正比 的 时 间 内 
在 一 幅 稠密 的 加 权 有 向 图 中 计算 出 给 定 顶点 的 最 短路 径 树 。 请 使 用 邻接 矩阵 法 表示 稠密 图 ( 请 
参考 练习 4.4.3 和 练习 4.3.29 ) 。 

欧 几 里 得 图 中 的 最 短路 径 。 已 知 图 中 的 顶点 均 在 平面 上 ， 修 改 API 以 提高 Dijkstra 算法 的 性 能 。 
有 向 无 环 图 中 的 最 长 路 径 。 重 新 实现 Acyc1icLP 类 ， 根 据 命题 了 解决 加 权 有 向 无 环 图 中 的 最 长 
路 径 问 题 。 

一 般 最 优 性 。 完 成 命题 W 的 证 明 ， 说 明 如 果 存 在 从 s 到 v 的 有 向 路 径 且 从 s 到 v 的 任意 路 径 上 
的 所 有 顶点 都 不 在 任意 负 权 重 环 上 , 那么 必然 存在 一 条 从 s 到 v 的 最 短路 径 ( 提示 : 参考 命题 P ) 。 
含有 负 权 重 环 的 图 中 的 任意 顶点 对 之 间 的 最 短路 径 。 参 考 4.4.4.3 节 框 注 “ 任 意 顶 点 对 之 间 的 
最 短路 径 ” 所 实现 的 不 含 负 权 重 环 的 图 中 任意 项 点 对 之 间 的 最 短路 径 问 题 并 设计 一 份 API。 使 
] Bellman-Ford 算法 的 一 个 变种 来 确定 权重 数组 pi[] ， 使 得 对 于 任意 边 v 一 w， 边 的 权重 加 上 
pi[v] 和 pi[w] 之 差 的 和 非 负 。 然 后 更 新 所 有 边 的 权重 ， 使 得 Dijkstra 算法 可 以 在 新 图 中 找 出 所 
有 的 最 短路 径 。 
线 图 中 任意 顶点 对 之 间 的 最 短路 径 。 给 定 一 幅 加 权 线 图 (无 向 连通 图 ， 除 了 两 个 端点 度数 为 1 
之 外 所 有 顶点 的 度数 为 2 ) ， 给 出 一 个 算法 在 线性 时 间 内 对 图 进行 预 处 理 并 在 常数 时 间 内 返回 任 
意 两 个 顶点 之 间 的 最 短路 径 。 

启发 式 的 父 结 点 检查 。 修 改 Bellman-Ford 算 法， 仅 当 顶点 v 在 最 短路 径 树 中 的 父 结 点 
edgeTo[v] 目前 不 在 队列 中 时 才 访 问 v。Cherkassky 、Goldberg 和 Radzik 在 实践 中 发 现 这 种 启发 
式 的 做 法 十 分 有 帮助 。 证 明 这 种 方法 能 够 正确 的 计算 出 最 短路 径 且 在 最 坏 情况 下 的 运行 时 间 和 
EV 成 正比 。 

网 格 图 中 的 最 短路 径 。 给 定 一 个 Nx 的 正 整 数 和 矩阵 , 找到 从 (0,0) 到 (N-1, N-1) 的 最 短路 径 ， 
路 径 的 长 度 即 为 路 径 中 所 有 正 整 数 之 和 。 在 只 能 向 右 和 向 下 移动 的 限制 下 重新 解答 这 个 问题 。 
单调 最 短路 径 。 给 定 一 幅 加 权 有 向 图 ， 找 出 从 s 到 其 他 每 个 顶点 的 单调 最 短路 径 。 如 果 一 条 路 
径 上 的 所 有 边 的 权重 是 严格 单调 递增 或 递减 的 ， 那 么 这 条 路 径 就 是 单调 的 。 这 样 的 路 径 应 该 是 
简单 的 (不 包含 重复 顶点 ) 。 提 示 : 按照 权重 的 升序 放松 所 有 边 并 找到 一 条 最 佳 路 径 ; 然后 按 
照 权 重 的 降序 放松 所 有 边 再 找到 另 一 条 最 佳 路 径 。 
双 调 最 短路 径 。 给 定 一 幅 有 向 图 ， 找 到 从 s 到 其 他 每 个 顶点 的 双 调 最 短路 径 (如 果 存 在 ) 。 如 
果 从 s 到 ft 的 路 径 上 存在 一 个 中 间 顶 点 v 使 得 从 s 到 v 中 的 所 有 边 的 权重 均 严 格 单调 递增 日 从 
v 到 ft 中 的 所 有 边 的 权重 均 严 格 单调 递减 ， 那 么 这 就 是 一 条 双 调 路 径 。 这 样 的 路 径 应 该 是 简单 的 
(不 包含 重复 顶点 ) 。 


A 


邻居 顶点。 编写 一 个 SP 的 用 例 ， 找 出 一 幅 给 定 加 权 有 向 图 中 和 一 个 给 定 顶 点 的 距离 在 4 之 内 的 
所 有 顶点。 你 的 算法 所 需 的 运行 时 间 应 该 与 由 这 些 顶 点 和 依附 于 它们 的 边 组 成 的 子 图 的 大 小 以 
及 V( 用 于 初始 化 数据 结构 ) 中 的 较 大 者 成 正比 。 

关键 边 。 给 出 一 个 算法 来 找到 给 定 的 加 权 有 向 图 中 的 一 条 边 ， 删 去 这 条 边 使 得 给 定 的 两 个 顶点 
之 间 的 最 短 距 离 的 增加 值 最 大 。 

敏感 度 。 给 定 一 幅 加 权 有 向 图 和 一 对 顶点 s 和 t， 编写 一 个 SP 的 用 例 对 该 图 中 的 所 有 边 进行 敏 


感度 分 析 : 计算 一 个 了 x 玫 的 布尔 矩阵 ， 对 于 任意 的 v 和 w， 当 v 一 w 为 加 权 有 向 图 中 的 一 条 
边 且 增加 v 一 w 的 权重 不 会 增加 从 s 到 t 的 最 短路 径 的 权重 时 , v 行 w 列 的 值 为 true， 否则 为 


false。 
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4.4.39 延 时 Dijkstra 算法 的 实现 。 根 据 正文 实现 Dijkstra 算法 的 延 时 版 本 。 
4.4.40 ”瓶颈 最 短路 径 树 。 请 证 明 一 幅 无 向 图 中 的 一 棵 最 小 生成 树 等 价 于 该 图 中 的 一 棵 瓶颈 最 短路 径 树 : 


对 于 任意 一 对 顶点 v 和 w， 该 树 都 含有 一 条 连接 它们 的 路 径 且 其 中 的 最 长 边 是 所 有 连接 两 点 的 路 
径 中 最 短 的 。 


4.4.41 双向 搜索 。 基 于 算法 4.9 的 代码 为 给 定 两 点 的 最 短路 径 问 题 实现 一 个 类 ,但 在 初始 化 时 将 起 点 和 
终点 都 加 入 优先 队列 。 这 么 做 会 使 最 短路 径 树 从 两 个 顶点 同时 开始 生长 ， 你 的 主要 任务 是 决定 

两 棵 树 相遇 时 应 该 怎么 办 。 

4.4.42 ”最 坏 情况 (Dijkstra 算法 ) 。 找 出 含有 个 顶点 和 已 条 边 的 一 组 图 ， 使 得 Dijkstra 算法 处 理 它 们 
所 需 的 运行 时 间 为 最 坏 情况 。 

4.4.43 负 权 重 环 的 检测 。 假 设 为 算法 4.11 加 入 了 一 个 构造 函数 ， 它 和 已 有 的 构造 函数 的 区 别 仅 在 于 
不 需要 第 二 个 参数 并 将 distTo[] 中 的 所 有 元 素 初 始 化 为 0。 证 明 ， 如 果 用 例 调用 的 是 这 个 
构造 函数 ， 那 么 当 且 仅 当 图 中 含有 一 个 负 权 重 环 时 ，hasNegativeCycle() 才 会 返回 true。 

(negativeCycle() 会 返回 那个 负 权 重 环 。 ) 

解答 : 向 原 图 添加 一 个 新 的 起 点 以 及 从 该 起 点 指向 所 有 其 他 顶点 的 权重 为 0 的 边 。 在 一 轮 放松 

之 后 ，distTo[] 中 的 所 有 元 素 的 值 均 会 变 为 0， 从 新 起 点 开始 寻找 一 个 负 权重 环 和 在 原 图 中 寻 


找 负 权重 环 是 等 价 的 。 
4.4.44 ”最 坏 情况 ( Bellman-Ford 算法 ) 。 找 出 一 组 图 ， 使 得 算法 4.11 的 运行 时 间 与 VE 成 正比 。 690 


4.4.45 ”快速 Bellman-Ford 算法 。 对 于 边 的 权重 为 整数 且 绝 对 值 不 大 于 某 个 常数 的 特殊 情况 ， 给 出 一 个 
解决 一 般 的 加 权 有 向 图 中 的 单 点 最 短路 径 问题 的 算法 ， 其 所 需 的 运行 时 间 低 于 EV 级 别 。 
4.4.46 动画。 编写 一 段 程序 将 Dijkstra 算法 用 动画 表现 出 来 。 


691 


mm 了 人 日 
图 实验 是 


4.4.47 ”随机 加 权 有 向 稀疏 图 。 修 改 你 为 练习 4.3.34 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 
4.4.48 ”随机 加 权 有 向 欧 几 里 得 图 。 修 改 你 为 练习 4.3.35 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 
4.4.49 随机 加 权 有 向 网 格 图 。 修 改 你 为 练习 4.3.36 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 
4.4.50 负 权 重 边 I。 修 改 你 的 随机 加 权 有 向 图 生成 器 ， 通 过 调整 比例 将 边 的 权重 控制 在 在 x 和 yy 之 间 (x 
和 >? 都 在 -1 和 1 之 间 ) 。 
4.4.51 负 权 重 边 JI。 修改 你 的 随机 加 权 有 向 图 生成 器 ， 将 固定 比例 (此 值 由 用 例 指定 ) 的 边 的 权重 取 反 
来 生成 负 权重 的 边 。 
4.4.52 ” 负 权 重 边 II。 编 写 一 段 程序 ， 调 用 你 的 加 权 有 向 图 生成 器 ， 尽 可 能 为 大 范围 的 政和 五 值 生 成 多 
幅 加 权 有 向 图 ， 保 证 图 中 大 部 分 边 的 权重 为 负 且 只 有 若干 个 负 权 重 环 。 
测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 022 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 上段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任 
何 结论 。 
4.4.53 预测。 请 估计 你 的 计算 机 和 程序 系统 使 用 Dijkstra 算法 在 10 秒 钟 之 内 能 够 计算 出 图 中 所 有 的 最 
短路 径 的 图 的 最 大 规模 ， 其 中 E=10V， 误 差 在 10 倍 以 内 。 
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4.4.54” 延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比 较 Dijkstra 算法 的 延 时 版 本 和 即时 版 本 

的 性 能 差异 。 
4.4.55 ”Johnson 算法 。 使 用 一 个 d 向 堆 实 现 优先 队列 。 对 于 各 种 加 权 有 向 图 的 模型 ， 找 到 d 的 最 优 值 。 
4.4.56 ” 套 汇 模型 。 实 现 一 个 模型 来 生成 随机 的 套 汇 问题 。 目 标 是 尽量 生成 与 练习 4.4.20 中 相似 表格 。 
4.4.57 最 后 期 限 限制 下 的 并 行 任务 调度 模型 。 实 现 一 个 模型 来 生成 随机 的 最 后 期 限 限制 下 的 并 行 任务 
693 调度 问题 。 目 标 是 尽量 生成 复杂 但 可 以 解决 的 问题 。 
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我 们 通过 交流 成 串 的 字符 进行 沟通 , 所 以 无 数 的 重要 而 熟悉 的 应 用 软件 都 是 基于 字符 串 处 理 的 。 
本 章 中 ， 我 们 会 考察 一 些 经 典 算法 ,解决 以 下 应 用 领域 背后 的 计算 问题 。 
言 息 处 理 。 当 你 根据 一 个 给 定 的 关键 字 搜 索 网 页 时 ， 就 是 在 使 用 一 个 字符 串 处 理应 用 程序 。 在 
现代 世界 中 ， 可 以 说 所 有 的 信息 都 是 用 一 系列 字符 串 表 示 的 ， 而 对 它们 进行 处 理 的 都 是 非常 重要 的 
字符 串 处 理应 用 程序 。 

基因 组 学 。 计 算 生 物 学 家 的 一 项 工作 就 是 根据 密码 子 将 DNA 转换 为 由 4 个 碱 基 (A、C、T 和 6G) 
组 成 的 ( 非常 长 的 ) 字 符 串 。 近 些 年 来 人 类 构建 起 来 的 庞大 的 基因 数据 库 已 经 能 够 描述 各 种 活体 器 官 ， 
因此 字符 串 处 理 已 经 成 为 了 现在 计算 生物 学 研究 的 基石 。 

通信 系统 。 无 论 你 是 在 发 送 短 信 、 电 子 邮 件 或 是 下 载 电 子 书 ， 都 是 在 将 字符 串 从 一 个 地 方 传送 到 
另 一 个 地 方 。 以 此 为 目标 的 字符 串 处 理应 用 程序 是 字符 串 处 理 算 法 开发 的 源 动力 。 

编程 系统 。 程 序 是 由 字符 串 组 成 的 。 编 译 器 、 解 释 器 等 其 他 能 够 将 程序 转换 为 机 器 指令 的 软件 
都 是 使 用 复杂 的 字符 串 处 理 技术 的 重要 应 用 软件 。 事 实 上 ， 所 有 的 书面 语言 都 是 由 字符 串 表 达 的 。 
另外 ， 开 发 字符 串 处 理 算法 的 另 一 个 动力 来 源 在 于 形式 语言 理论 ， 它 研究 的 是 对 不 同类 型 的 字符 串 
集合 的 描述 。 

这 几 个 非常 有 意义 的 示例 说 明了 字符 串 处 理 算法 的 重要 性 和 应 用 领域 的 多 样 性 。 

本 章 的 结构 如 下 : 在 介绍 了 字符 串 的 基本 性 质 以 后 ， 我 们 会 在 5.1 节 和 5.2 节 中 再 次 遇 到 第 2 
章 和 第 3 章 学 过 的 排序 和 查找 API。 当 使 用 字符 串 作 为 键 时 ， 能 够 利用 键 的 特殊 性 质 的 算法 将 比 之 
前 学 习 过 的 算法 更 快 更 灵活 。 在 5.3 节 中 ， 我 们 会 学 习 子 字符 囊 查 找 算法 ,包括 由 Knuth、Morris 
和 Pratt 发 明 的 一 个 著名 的 算法 。 在 5.4 节 中 会 介绍 正则 表达 式 ， 它 是 模式 匹配 问题 的 基础 ， 是 一 个 
一 般 化 了 的 子 字符 串 查 找 问 题 , 也 是 搜索 工具 grep 的 核心 。 这些 经 典 的 算法 的 基础 是 两 个 基本 概念 ， 
分 别 叫做 形式 语言 和 确定 有 限 状 态 自动 机 。5.5 节 主 要 介绍 了 一 个 重要 应 用 : 数据 压缩 ， 即 尝试 将 
一 个 字符 串 的 长 度 缩短 到 最 小 程度 。 


5.0.1 游戏 规则 

为 了 简洁 高 效 ， 我 们 将 使 用 Java 的 String 类 来 表示 字符 串 ， 但 我 们 将 有 意识 地 尽量 少 使 用 该 
类 的 方法 以 使 算法 能 够 适用 于 其 他 字符 串 数据 类 型 以 及 其 他 编程 语言 。 我 们 已 经 在 1.2 节 中 详细 介 
绍 过 各 种 字符 串 ， 这 里 简要 回顾 一 下 它们 最 主要 的 性 质 。 

字符 。String 是 由 一 系列 字符 组 成 的 。 字 符 的 类 型 是 char， 可 能 有 2” 个 值 。 数 十 年 以 来 ， 
程序 员 的 注意 力 都 局 限于 7 位 ASCII 码 (请 见 表 5.5.4 ) 或 是 8 位 扩展 ASCII 码 表示 的 字符 ， 但 许 
多 现代 的 应 用 程序 都 已 经 需要 使 用 16 位 Unicode 编码 了 。 

不 可 变性 。String 对 象 是 不 可 变 的 ， 因 此 可 以 将 它们 用 于 赋值 语句 、 作 为 函数 的 参数 或 是 返 
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回 值 ， 而 不 用 担心 它们 的 值 会 发 生变 化 。 

索引 。 我 们 最 常 完成 的 操作 就 是 从 菜 个 字符 事 中 提取 一 个 特定 的 字符 ， 即 Java 的 String 类 
的 charAtQ 方法 。 我 们 希望 charAt0 方法 能 够 在 常数 时 间 内 完成 ， 就 好 像 字符 串 是 保存 在 一 个 
char[] 数组 中 一 样 。 根 据 第 1 章 中 的 讨论 ， 这 种 期 望 是 非常 合理 的 。 

长 度 。 在 Java 中 ,String 类 型 


、 .length 
的 lengthO 方法 实现 了 获取 字符 囊 Sogn 
的 长 度 的 操作 。 同 样 ， 我 们 也 希望 0 12 3 4 56 7 8 9101112 
1ength() 方法 能 够 在 常数 时 间 内 完成 ， s—_~AT TA CKA TD AWN 
这 也 是 合情合理 的 ， 尽 管 在 某 些 编程 环 / 
、 、 s.charAt(3) 
境 中 实现 这 一 点 并 不 容易 。 s.substring(7, 11) 
子 字符 串 。Java 的 substring() 方 
法 实现 了 提取 特定 的 子 字 符 串 的 操作 。 图 5.0.1 String 类 型 的 基本 常数 时 间 操 作 


同样 ， 我 们 也 希望 这 个 方法 能 够 在 常数 
时 间 内 完成 ，Java 的 标准 实现 也 做 到 了 这 一 点 。 如 果 你 还 不 熟悉 substring() 方法 和 为 什么 它 只 
需要 常数 时 间 ， 请 务必 重新 阅读 1.2 节 中 讨论 的 Java 字符 串 的 标准 实现 (请 见 表 1.2.7 和 图 1.4.10 ) 。 

字符 串 的 连接 。 在 Java 中 通过 将 一 个 字符 串 追 加 到 另 一 个 字符 串 的 末尾 创建 一 个 新 字符 串 的 操 
作 是 一 个 内 置 的 操作 ( 使 用 “+” 运 算 符 ) ， 所 需 的 时 间 与 结果 字符 串 的 长 度 成 正比 。 例 如 ， 我 们 
会 避免 将 字符 一 个 一 个 地 追加 到 字符 串 中 , 因为 在 Java 里 这 个 过 程 所 需 的 时 间 将 会 是 平方 级 别 的 ( 为 
此 Java 提供 了 一 个 StringBuilder 类 ) 。 

字符 数组 。Java 的 String 类 显然 并 不 是 一 个 原始 数据 类 型 。Java 的 标准 实现 提供 了 刚才 提 到 
的 几 个 操作 以 供 客户 端 程序 调用 。 但 与 之 相反 ,我 们 将 要 学 习 的 许多 算法 都 能 够 处 理 字符 串 的 低级 
表示 ， 比 如 char 类 型 的 数组 ， 而 且 许 多 字符 串 的 用 例 程序 也 更 愿意 使 用 这 种 表示 ， 因 为 它 消耗 的 
空间 更 小 ， 访 问 所 需 的 时 间 更 少 。 在 我 们 将 要 学 习 的 几 个 算法 中 ， 将 字符 串 从 一 种 表示 转换 成 男 一 
种 表示 的 代价 甚至 比 算法 的 运行 成 本 更 高 。 如 表 5.0.1 所 示 ， 处 理 这 两 种 表示 所 用 的 代码 的 差别 是 
很 小 的 (substring0) 方法 比较 复杂 ， 此 处 省 上 略 ) ， 所 以 无 论 使 用 哪 种 表示 方式 都 不 会 影响 读者 对 
算法 的 理解 。 


表 5.0.1 在 Java 中 表示 字符 串 的 两 种 方法 


操作 字符 数组 Java 字符 串 
声明 char[] a String s 
根据 索引 访问 字符 a[i] s.charAt(i) 
获取 字符 串 长 度 a.length s.length() 
表示 方法 转换 a=s.toCharArray() ; s=new String(a); 


理解 这 些 操作 的 运行 效率 是 理解 许多 字符 串 处 理 算法 效率 的 关键 部 分 。 并 不 是 所 有 编程 语 
言 实现 的 String 类 都 能 有 这 样 的 性 能 。 例 如 ， 提 取 子 字符 串 和 获取 字符 串 长 度 的 操作 在 C 语 
言 中 所 需 的 时 间 就 与 字符 串 中 的 字符 数量 成 正比 。 修 改 我 们 的 算法 并 使 之 适用 于 这 样 的 编程 语 
言 是 完全 可 以 的 (实现 一 个 类 似 Java 的 String 类 的 抽象 数据 类 型 ) ， 但 这 也 意味 着 不 同 的 挑 
战 和 机 遇 。 

在 正文 中 ,我 们 主要 会 使 用 String 数据 类 型 。 我 们 会 经 常 调用 通过 索引 访问 字符 串 中 的 字 
符 操作 和 获取 字符 串 长 度 的 操作 ， 有 时 会 使 用 提取 子 字 符 串 或 是 连接 字符 串 的 操作 。 我 们 还 会 在 
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本 书 的 网 站 上 提供 相应 的 使 用 char 数组 的 代码 。 在 性 能 优先 的 应 用 场景 中 ， 用 例 在 这 两 种 表示 
方法 之 间 权 衡 的 常常 是 访问 字符 的 成 本 ( 在 一 般 的 Java 实现 中 ，a[i] 很 可 能 比 s.charAt(i) 要 
快 很 多 ) 。 


5.0.2 ”字母 表 


一 些 应 用 程序 可 能 会 对 字符 串 的 字母 表 作出 限制 。 在 这 些 应 用 中 ， 可 能 常常 会 需要 一 个 API 如 
表 5.0.2 所 示 的 Alphabet 类 。 


表 5.0.2 字母 表 的 API 


public class Alphabet 
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Alphabet(String s) 根据 s 中 的 字符 创建 一 张 新 的 字母 表 
char toChar(int index) 获取 字母 表 中 索引 位 置 的 字符 
int toIndex(Cchar c) 获取 c 的 索引 ， 在 0 到 R-1 之 间 
boolean contains(char c) c 在 字母 表 之 中 吗 
int RO 基数 (字母 表 中 的 字符 数量 ) 
int 1gRO 表示 一 个 索引 所 需 的 比特 数 
int[] toIndices(String s) 将 s 转换 为 进 制 的 整数 


String 


toChars(int[] indices) 


将 尽 进 制 的 整数 转换 为 基于 该 字母 表 的 字符 串 


这 份 API 定义 了 一 个 构造 函数 ， 它 用 一 个 含有 及 个 字符 的 字符 串 参数 指定 了 字母 表 。API 定 
义 了 toChar() 方法 和 toIndex0 方法 来 在 字符 和 0 到 R-1 之 间 的 整 型 值 进行 转换 ( 常数 时 间 ) 。 
它 还 包含 了 contains () 方法 来 检查 给 定 的 字符 是 否 存 在 于 字母 表 中 。 方 法 RO 和 1gR() 用 来 获 


取 字 母 表 中 的 字符 数 以 及 表示 它们 所 需 的 比特 数 。toIndices () 方法 和 toChars () 方法 能 
组 成 的 字符 串 与 int 数组 相互 转换 。 方 便 起 见 ， 下 孟 
尔 可 以 通过 类 似 Alphabet .UNICODE16 的 方式 来 访问 它们 。Alphabet 的 实现 很 简单 ， 


由 字母 表 中 的 字符 


字母 表 ， 


够 将 
i 的 表格 显示 了 各 种 内 置 的 


我 们 将 它 留 作 练习 (请 见 5.1.12 ) 。 我 们 会 在 表 5.0.3 后 面 的 框 注 “Alphabet 类 的 典型 用 例 ” 来 


展示 一 个 它 的 用 例 。 


表 5.0.3 标准 字母 表 


名 称 RO 1gRQO 字 符 集 
BINARY 2 1 01 
DNA 4 2 ACTG 
OCTAL 8 3 01234567 
DECIMAL 10 4 0123456789 
HEXADECIMAL 16 4 0123456789ABCDEF 
PROTEIN 20 5 ACDEFGHIKLMNPQRSTVWY 
LOWERCASE 26 5 abcdefghijklmnopqrstuvwxyz 
UPPPERCASE 26 3 ABCDEFGHIJKLMNOPQRSTUVWXYZ 
BASE64 64 6 i jklmnopqrstuvwx 
ASCII 128 7 ASCII 字符 集 
EXTENDED ASCII 256 8 扩展 ASCII 字符 集 
UNICODE16 65 536 16 Unicode 字符 集 


效率 。 在 这 个 数组 中 ,用 字符 作为 索引 来 获取 与 之 相关 联 的 信息 。 如 果 要 使 用 Java 的 String 类 ， 


public class Count 


{ 


public static void main(String[] args) 


{ 


Alphabet alpha = new Alphabet(args[0]); 


int R = alpha.RO; 
int[] count = new int[R]; 


String s = StdIn.readAl1Q; 
int N = s.length(); 
Om N 


if (alpha.contains(s.charAt(i))) 
count[alpha.toIndex(s.charAt(i))]++; 


For (net ee 0 OR ern 
Stdout.println(Calpha.toChar(c) 


EECEOUmEECID 


Alphabet 类 的 典型 用 例 


% more abra.txt 
ABRACADABRA! 


% java Count ABCDR < abra. 


字符 索引 数组 。 我 们 使 用 A1phabet 类 的 一 个 最 重要 的 原因 是 字符 索引 的 数组 能 够 提高 算法 的 


那 
即 


你 


toIndices 0) 方法 能 够 将 任意 基于 给 定 的 Alphabet 类 的 String 转换 为 一 个 R 进 制 的 数字 ， 用 


就 必须 使 用 一 个 大 小 为 65 536 的 数组 ; 有 了 Alphabet 类 ， 则 只 需要 使 用 一 个 字母 表 大 小 的 数组 


可 。 我 们 将 要 学 习 的 一 些 算法 能 够 产生 大 量 的 此 类 数组 。 在 这 种 情况 下 ， 大 小 为 65 536 的 数组 是 
不 可 接受 的 。 例 如 前 面 框 注 中 的 Count 类 ， 它 从 命令 行 接受 一 个 字符 串 并 打印 出 从 标准 输入 获得 的 
个 字符 的 出 现 频率 。Count 中 用 来 保存 出 现 频率 的 count[] 数组 就 是 一 个 字符 索引 数组 的 示例 。 
可 能 会 认为 数组 的 计算 有 些 繁琐 ,但 实际 上 它 是 5.1 市 介绍 的 一 系列 快速 排序 算法 的 基础 。 

数字 。 你 可 以 从 几 个 标准 的 Alphabet 类 的 示例 中 看 到 ， 我 们 经 常 要 处 理 字符 串 形 式 的 数字 。 


个 元 素 均 在 0 到 R-1 之 间 的 int[] 数组 表示 。 在 某 些 情况 下 ， 一 开始 就 进行 这 样 的 转换 可 以 使 代 
更 简 尘 ， 因 为 任意 数字 都 能 作为 一 个 字符 串 索 引 数组 中 的 索引 。 例 如 ， 如 果 我 们 已 知 输入 中 仅 含 
有 字母 表 中 的 字母 ， 那 就 可 以 将 Count 中 的 内 循环 替换 为 下 面 这 段 更 加 简洁 的 代码 : 


但 


int[] a = alpha.toIndices(s) ; 
for (Cint 1 = 0; i < Ni i++) 
count[a[i]]++; 


其 中 ,我 们 将 R 称 为 基数 ， 即 进 制 数 。 我 们 介绍 的 几 种 算 


法 也 常常 被 称 为 “基数 ”方法 ,因为 它们 一 次 只 处 到 
尽管 使 用 Alphabet 这 样 的 数据 类 型 能 够 为 字符 上 


理 


符 


的 


E 一 位 数 。 


处 


算法 带 来 许多 好 处 〈 特别 是 对 于 较 小 的 字母 表 ) ,但 是 
本 书 中 并 没有 实现 基于 通用 字母 表 Alphabet 类 得 到 的 字 


串 类 型 ， 这 是 因为 : 
口 大 多 数 程 序 使 用 的 都 是 String 类 型 ; 


会 落 入 内 循环 中 ， 这 会 大 幅 降 低 实现 的 怕 
口 这 会 使 代码 更 加 复杂 ， 也 更 加 难以 理解 。 


LA 
tHE; 


D 将 字符 串 转 化 为 索引 或 是 由 索引 得 到 字符 串 常 党 


% more pi.txt 
3141592653 
5897932384 
6264338327 
9502884197 

. [Tt 的 100 000 位 ] 


Javad Coun® O01234567890 < pie ext 
9999 
0037 
9908 
10026 
9971 
10026 
10028 
10025 
9978 
9902 


避 oo、viOwm 上 和 wm 六 口 六 


因此 我 们 仍然 会 使 用 String 类 ， 在 代码 中 使 用 常数 R = 256 并 在 分 析 中 将 R 作为 参数 。 在 适当 


时 候 我 们 会 讨论 通用 字母 表 的 性 能 。 本 书 的 网 站 提供 了 基 了 


F Alphabet 类 的 各 种 算法 的 完整 实现 。 
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5.1 字符 串 排 序 


对 于 许多 排序 应 用 ， 决 定 顺序 的 键 都 是 字符 串 。 本 节 中 ， 我 们 将 会 考察 能 够 利用 字符 串 的 特殊 
性 质 将 字符 串 键 排序 的 方法 ， 它 们 将 比 第 2 章 学 过 的 通用 排序 方法 效率 更 高 。 

我 们 将 学 习 两 类 完全 不 同 的 字符 串 排序 方法 。 它 们 都 是 为 程序 员 服 务 了 几 十 年 的 强大 方法 。 

第 一 类 方法 会 从 右 到 左 检查 键 中 的 字符 。 这 种 方法 一 般 被 称 为 低位 优先 (Least-Significant-Digit 
First，LSD ) 的 字符 串 排序 。 使 用 数字 ( digit ) 代替 字符 〈character ) 的 原因 要 追溯 到 相同 方法 在 各 
种 数字 类 型 中 的 应 用 。 如 果 将 一 个 字符 串 看 作 一 个 256 进 制 的 数字 ， 那 么 从 向 左 检查 字符 串 就 等 
价 于 先 检 查 数字 的 最 低位 。 这 种 方法 最 适合 用 于 键 的 长 度 都 相同 的 字符 串 排序 应 用 。 

第 二 类 方法 会 从 左 到 右 检 查 键 中 的 字符 ， 首 先 查 看 的 是 最 高 位 的 字符 。 这 些 方法 通常 称 为 高 位 
优先 ( MSD ) 的 字符 串 排 序 一 一 本 节 将 会 学 习 两 种 此 类 算法 。 高 位 优先 的 字符 囊 排 序 的 吸引 人 之 处 
在 于 ， 它 们 不 一 定 需要 检查 所 有 的 输入 就 能 够 完成 排序 。 高 位 优先 的 字符 囊 排 序 和 快速 排序 类 似 ， 
因为 它们 都 会 将 需要 排序 的 数组 切 分 为 独立 的 部 分 并 递归 地 用 相同 的 方法 处 理子 数组 来 完成 排序 。 
它们 的 区 别 之 处 在 于 高 位 优先 的 字符 串 排序 算法 在 切 分 时 仪 使 用 键 的 第 一 个 字符 ， 而 快速 排序 的 比 
较 则 会 涉及 键 的 全 部 。 要 学 习 的 第 一 种 方法 会 为 每 个 字符 创建 一 个 切 分 ， 第 二 种 方法 则 总 会 产生 三 
个 切 分 ， 分 别 对 应 被 搜索 键 的 第 一 个 字符 小 于 、 等 于 或 大 于 切 分 键 的 第 一 个 字符 的 情况 。 

在 分 析 字 符 串 排序 算法 时 ， 字 母 表 的 大 小 是 一 个 重要 的 因素 。 尽 管 我 们 的 重点 是 基于 扩展 的 
ASCII 字符 集 的 字符 串 (R=256 ) ,但 也 会 分 析 来 自 较 小 字母 表 的 字符 囊 ( 例如 基因 序列 ) 和 来 自 


较 大 字母 表 的 字符 串 ( 例如 含有 65 536 个 字符 的 Unicode 字母 表 , 它 是 自然 语言 编码 的 国际 标准 ) 。 [702 


5.1.1 键 索引 计数 法 


a es 人 pp 输入 排序 结果 
作为 热身 ,我 们 先 学 习 一 种 适用 于 小 整数 键 的 姓名 组 号 ( 按 组 别 排序 ) 
简单 排序 方法 。 这 种 叫做 键 索引 计数 的 方法 本 身 就 Anderson 2 Harris 1 
很 实用 ， 同 时 也 是 本 节 中 将 要 学 习 的 三 种 字符 串 排 ow 
a avis oore 
序 算法 中 两 种 的 基础 。 Garcia 4 Anderson 2 
老师 在 统计 学 生 的 分 数 时 可 能 会 遇 到 以 下 数 Harris 1 Martinez 2 
据 处 理 问题 。 学 生 被 分 为 若干 组 ， 标 号 为 1、2、 rt ai 
可 Sak i Johnson 4 Robinson 2 
3 等 。 在 某 些 情况 下 ， 我 们 希望 将 全 班 同 学 按 组 分 Jones 3 white ra 
类 。 因 为 组 的 编号 是 较 小 的 整数 ， 使 用 键 索引 计数 Martin 1 Brom 3 
法 来 排序 是 很 合适 的 ， 请 见 图 5.1.1。 为 了 说 明 这 ee CR 
se > iller 2 Jackson 3 
种 方法 ,假设 数组 a[] 中 的 每 个 元 素 都 保存 了 一 个 Moore 1 Jones 3 
名 字 和 一 个 组 号 ， 其 中 组 号 在 0 到 R-1 之 间 ， 代 码 Robinson 2 Taylor 3 
了 A 站 Smith 4 Willi 3 
a[i] .key0 会 返回 指定 学 生 的 组 号 。 这 种 方法 有 TS ts 
4 个 步骤 ,我 们 会 依次 讲解 。 Thomas 4 Johnson 4 
5.1.1.1 频率 统计 Thompson 4 Smith 4 
ee , 二 、 White 2 Thomas 4 
第 一 步 就 是 使 用 int 数组 count[] 计算 每 个 Williams 3 Thompson 4 
键 出 现 的 频率 。 对 于 数组 中 的 每 个 元 素 ， 都 使 用 它 Wilson 4 Wilson 4 
的 键 访问 count[] 中 的 相应 元 素 并 将 其 加 1。 如 果 ee 
键 为 r, 则 将 count[r+1] 加 1。 (为 什么 需要 加 1? 小 的 整数 


这 么 做 的 原因 到 下 一 步 你 就 会 明白 了 。) 在 图 5.1.2 图 1 1 活 于 使 用 键 索引 计数 法 的 典型 情况 


| 明 
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的 例子 中 ， 首 先 将 count[3] 加 1， 因 为 Anderson 在 第 二 组 中 ， 然 后 会 将 count[4] 加 2， 


因为 


Brown 和 Davis 都 在 第 三 组 中 ， 如 此 继续 。 注 意 ，count[0] 的 值 总 是 0， 在 这 个 示例 中 count[1] 


的 值 也 为 0 ( 第 零 组 中 没有 学 生 ) 。 
5.1.1.2 ”将 频率 转换 为 索引 


接 下 来 ， 我 们 会 使 用 count[] 来 计算 每 个 键 在 排序 结果 中 的 起 始 索 引 位 置 。 在 这 个 示例 中 ， 
因为 第 一 组 中 有 3 个 人 ,第 二 组 中 有 5 个人， 因此 第 三 组 中 的 同学 在 排序 结果 数组 中 的 起 始 位 置 为 


时 


8。 一 般 来 说 , 任意 给 定 的 键 的 起 始 索引 均 为 所 有 较 小 的 键 所 对 应 的 出 现 频率 之 和 。 对 于 每 个 键 值 "， 
小 于 r+1 的 键 的 频率 之 和 为 小 于 r 的 键 的 频率 之 和 加 上 count[r] ， 因 此 从 左 向 右 将 count[] 转化 


为 一 张 用 于 排序 的 索引 表 是 很 容易 的 ( 请 见 图 5.1.3 ) 。 


om (Ss OF 1d Nl 
count[a[i] .key(C) + 1]++; 


ount[] 


总 是 0 234 


~、 
Anderson 
Brown 
Davis 
Garcia 
Harris 
Jackson 
Johnson 
Jones 
Martin 
Martinez 


2 
3 
3 
4 
1 
3 
4 
3 gp 
1 Om nn OR 
2 

Miller 2 
1 
2 
4 
3 
4 
4 
之 
| 
4 


Count[r+1] += count[r]; 


总 是 0 count[] 
Moore 元 子 本 
Robinson 
Smith 
Taylor 
Thomas 
Thompson 
White 
Williams 
Wilson 


下 
0 
0 


20 
0/0 3 814 20 


组 号 小 于 3 的 总 人 数 (第 三 组 
在 输出 中 的 起 始 索引 ) 


LU UDPDMN 亡 志 户口 口 口 口 吕 
mm 人 上 和 和 和 下 wwNF 六 上 上 六 上 上品 


E 
1 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


OO A 人 PAPUWUWNINNPODO 
OMAOOOWN 和 NONNNNNPPPROODO Ou 


LU 
un 


第 三 组 的 
总 人 数 


图 5.1.2 计算 出 现 频率 图 5.1.3 ”将 频率 转换 为 起 始 索 引 
5.1.1.3 ”数据 分 类 


在 将 count[] 数组 转换 为 一 张 索 引 表 之 后 ， 将 所 有 元 素 ( 学生 ) 移动 到 一 个 辅助 数组 aux[] 
中 以 进行 排序 。 每 个 元 素 在 aux[] 中 的 位 置 是 由 它 的 键 (组 别 ) 对 应 的 count[] 值 决定 ， 在 移动 


之 后 将 count[] 中 对 应 元 素 的 值 加 1， 以 保证 count[r] 总 是 下 一 个 键 为 r 的 元 素 在 aux[] 


P 的 索 


引 位 置 。 这 个 过 程 只 需 遍 历 一 遍 数 据 即 可 产生 排序 结果 ， 如 图 5.1.4 所 示 。 注 意 : 在 我 们 的 一 个 应 


中， 这 种 实现 方式 的 稳定 性 是 很 关键 的 一 一 键 相同 的 元 素 在 排序 后 会 被 聚集 到 一 起 ， 但 相 x 
没有 变化 ， 请 见 图 5.1.5。 


顺序 


Sl 


Lo (Ce We (0 se Ns a 
aux[count[a[i]j.key(C)]++] = al[il]; 
count[] 
i 1 2 3 4 
0 0 3 814 
1 Anderson 2 Harris 1 
2 9 Brown 3 Martin 1 
3 10 Davis 3 Moore 1 
4 Garcia 4 Anderson 2 
5 Harris 下 Martinez 2 
6 11 Jackson 3 Miller 2 
7 Johnson 4 Robinson 2 
8 12 Jones 3 White 2 
9 Martin 1 Brown 3 
10 Martinez 2 Davis 3 
11 Miller 2 Jackson 3 
12 Moore 1 Jones 3 
13 Robinson 2 Taylor 3 
14 Smith 4 millians 3 
15 13 Taylor 3 Garcia 4 
16 Thomas 4 Johnson 4 
17 Thompson 4 Smith 4 
18 White 2 Thomas 4 
19 14 Williams 3 Thompson 4 
Wilson 4 Wilson 4 
3 8 14 20 
图 5.1.4 ”将 数据 分 类 ( 键 为 3 的 条 目 均 突出 显示 ) 
分 类 前 
aux[] | 
人 t t ' 
count[0] count[1] count[2] count[R-1] 
分 类 中 
aux[] | 0 | 二 | 池 :|' 洗 2 | R-1|R-1|R-1| 
couttroj nt coutt[2] our Re 
分 类 后 
aux[] | 0 0 | 1|1|1 2 | R-1|R-1|R-1 R-] 
ou eo coutt[1] ht count [R-1] 
图 5.1.5 ” 键 索引 计数 法 (分 类 阶段 ) 
5.1.1.4 回 与 


因为 我 们 在 将 元 素 移动 到 加 


回 原 数组 中 。 


有 助 数 组 的 过 程 中 完成 了 排序 ， 所 以 最 后 一 步 就 是 将 排序 的 结果 复 


| 
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命题 A。 键 索引 计数 法 排序 N 个 键 为 0 到 R-1 之 间 的 整数 的 元 素 需 要 访问 数组 11IN+ 4R+1 次 。 


证 明 。 根 据 代 码 可 得 ， 初 始 化 数组 会 访问 数组 WHR+1 次 。 在 第 一 次 循环 中 ，X 个 元 素 均 会 使 
计数 器 的 值 加 1 (访问 数组 2 次) ; 第 三 次 循环 会 进行 尽 次 加 法 《访问 数组 2R 次 ) ;第 三 
次 循环 会 使 计数 器 的 值 增 大 NN 次 并 移动 N 次 数据 (访问 数组 3N 次 ); 第 四 次 循环 会 移动 数 
据 和 次 (访问 数组 2N 次 )。 所 有 的 移动 操作 都 维护 了 等 键 元 素 的 相对 顺序 。 


键 索引 计数 法 是 一 种 对 于 小 整数 键 排序 非常 有 
效 却 常常 被 忽略 的 排序 方法 。 理 解 它 的 工作 原理 是 


int N = a.length; 


String[] aux = new String[N]; 


理解 字符 串 排 序 的 第 一 步 。 命 题 A 意味 着 键 索引 i ne mn 

计数 法 突破 了 NlogN 的 排序 算法 运行 时 间 下 限 (之 // 计算 出 现 频率 

前 已 经 证 明 过 ) 。 它 是 怎么 做 到 的 呢 ? 2.2 节 中 的 for Cint 1 = 0; 1 < N; i++) 
、\ > 业 , PA Wk 山 

命题 1 证 明 的 是 所 需 的 比较 次 数 的 下 限 ( 只 能 通过 请 人 二 了 


compareTo0) 访问 数据 ) 一 一 键 索引 计数 法 不 需要 for Cint r = 0; r < Ri r++) 
count[r+1] += count[r]; 


比较 ( 它 只 通过 keyQ 方法 访问 数据 ) 。 只 要 当 R 。。。// 宕 十 雪 信 天 


在 图 的 一 个 常数 因子 范围 之 内 ， 它 都 是 一 个 线性 时 for Cint i = 0; i < N; i++) | 
间 级 别 的 排序 方法 。 no = af[i]; 
、 for (Cint 1 = 0; i < N; i++) 
5.1.2 ”低位 优先 的 字符 串 排序 a[i] = aux[i]; 
我 们 学 习 的 第 一 个 字符 串 排 序 算法 叫做 低位 优 键 索引 计数 法 (a[] .keyQ 为 [0,R) 

先 (LSD ) 的 字符 串 排 序 。 考 虑 以 下 应 用 : 假设 有 之 间 的 一 个 整数 ) 
一 位 工程 师 架 设 了 一 个 设备 来 记录 给 定时 间 段 内 某 
条 忙碌 的 高 速 公 路 上 所 有 车 辆 的 车 牌号 ， 他 和 希望 知 输入 排序 结果 
道 总 共有 多 少 辆 不 同 的 车 辆 经 过 了 这 段 高 速 公路 。 4PGC938 1ICK750 
根据 2.1 节 你 可 以 知道 ， 解 决 这 个 问题 的 一 种 简单 0 
方法 就 是 将 所 有 车 牌号 排序 ， 然 后 遍历 并 找 出 所 有 1ICK750 1oHhv845 
不 同 的 车 牌号 的 数量 ， 如 Dedup 所 示 (请 见 3.5.2.1 lOHV845 10HV845 
Ee ye a et 计 4JZY524 2IYE230 
闻 框 注 se 过 滤 需 人 1ICK750 2RLA629 
混合 组 成 ， 因 此 一 般 都 将 它们 表示 为 字符 串 。 在 最 3CI0720 2RLA629 
简单 的 情况 中 (例如 图 5.1.6 所 示 的 加 利 福 尼 亚 州 lOHV845 3ATW723 

口 wa 2 也 二 | 和 lOHV845 3CI0720 
的 车 牌号 ) ， 这 些 字符 串 的 长 度 都 是 相同 的 。 这 yo 
种 情况 在 排序 应 用 中 很 常见 一 一 比如 电话 号 码 、 2RLA629 4JZY524 
银行 账号 、IP 地 址 等 都 是 典型 的 定 长 字符 串 。 外 4PQC938 

将 此 类 字符 串 排序 可 以 通过 键 索 引 计数 法 来 完 键 的 长 度 

成 ， 如 算法 5.1 (LSD ) 和 其 下 方 的 例子 所 示 。 如 果 均 相 同 
字符 串 的 长 度 均 为 灰 ， 那 就 从 右 向 左 以 每 个 位 置 的 图 5.1.6 ee 
字符 作为 键 ， 用 键 索引 计数 法 将 字符 中 排序 万 遍 。 I 


乍 一 看 你 很 难 相信 这 种 方法 能 够 产生 一 个 有 序 的 数 
组 一 一 事实 上 ， 除 非 键 索 引 计数 法 是 稳定 的 ， 否 则 这 种 方法 是 行 不 通 的 。 在 研究 以 下 证 明 时 请 记 住 
这 一 点 并 参考 后 面 的 示例 。 
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命题 B。 低 位 优先 的 字符 串 排序 算法 能 够 稳定 地 将 定 长 字符 串 排序 。 


证 明 。 该 命题 完全 依赖 于 键 索 引 计 数 法 的 实现 是 稳定 的 ， 这 种 稳定 性 已 经 在 命题 A 中 指出 了 。 在 将 它 人 
的 最 后 i 个 字符 作为 键 (用 稳定 的 方式 ) 进行 排序 之 后 ， 可 以 知道 ， 任 意 两 个 键 在 数组 中 的 顺序 都 是 了 
确 的 (只 考虑 这 些 字符 ) 。 要 么 因为 它们 的 倒数 第 i 个 字符 不 同 ， 所 以 排序 方法 已 经 将 它们 的 顺序 摆 放 

正确 ; 要 么 它们 的 倒数 第 i 个 字符 相同 ， 所 以 由 于 排序 的 稳定 性 它们 仍然 有 序 ( 由 归纳 法 可 知 , 对 于 i_1 [1705 
这 一 点 仍然 正确 ) 。 706 


Fi 


算法 5.1 低位 优先 的 字符 串 排 序 


public class LSD 
* 
public static void sort(String[] a, int W) 
{ // 通过 前 W 个 字符 将 a[] 排 序 
int N = a.length; 
int R = 256; 
String[] aux = new String[N]; 


for (Cint d = W-1; d >= 0; d--) 
{ // 根据 第 d 个 字符 用 键 索引 计数 法 排序 


int[] count = new int[R+1]; // 计算 出 现 频率 
for Cint i = 0; i < N; i++) 
count[a[i] .charAt(d) + 1]++; 


for (int r = 0; r < Ri r++) // 将 频率 转换 为 索引 
count[r+1] += count[r]; 


for Cint 1 = 0; i < N; i++) // 将 元 素 分 类 
aux[count[a[i].charAt(d)]++] = a[il]; 


for (int 1 = 0; i < N; i++) // 回 写 
a[i] = aux[i]; 


} 
要 将 每 个 元 素 均 为 含有 W 个 字符 的 字符 串 数 组 a[] 排序 ， 要 进行 W 次 键 索引 计数 排序 从 右 向 左 ， 


以 每 个 位 置 的 字符 为 键 排序 一 次 。 

输入 (W=7) d= 6 d= 5 d= 4 d= 3 d= 2 d= 1 d= 0 输出 
4PGC938 0 20 230 A629 CK750 3ATW723 1ICK750 1ICK750 
2IYE230 0 20 524 A629 CK750 3CI0720 1ICK750 1ICK750 
3CIO720 0 23 629 C938 GC938 3CI0720 10HV845 lOHV845 
lICK750 0 24 629 E230 HV845 JICK750 lOHV845 lOHV845 
lOHV845 0 29 720 K750 HV845 JICK750 lOHV845 lOHV845 
4JZY524 3 29 720 K750 HV845 2IYE230 2IYE230 2IYE230 
lICK750 4 30 723 0720 I0720 4JZY524 2RLA629 2RLA629 
3CIO720 5 38 750 0720 I0720 JOHV845 2RLA629 2RLA629 
lOHV845 5 45 750 V845 LA629 JOHV845 3ATW723 3ATW723 
lOHV845 5 45 845 V845 LA629 JOHV845 3CI0720 3CI0720 
2RLA629 8 45 845 V845 TW723 4PCC938 3CI0720 3CI0720 
2RLA629 9 50 845 W723 YE230 2RLA629 4]JZY524 4]JZY524 707 
3ATW723 9 50 938 Y524 ZY524 2RLA629 4PCC938 4PGC938 
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证 明 该 命题 的 另 一 种 方法 是 向 前 看 : 如 果 有 两 个 键 ， 它 们 中 还 没有 被 
检查 过 的 字符 都 是 完全 相同 的 ， 那 么 键 的 不 同 之 处 就 仅 限 于 已 经 被 检查 过 的 v6 vA 。2 
字符 。 因 为 两 个 键 已 经 被 排序 过 ， 所 以 出 于 稳定 性 它们 将 一 直 保 持 有 序 。 另 0 - 
外 ， 如 果 还 没 被 检查 过 的 部 分 是 不 同 的 ， 那 么 已 经 被 检查 过 的 字符 对 于 两 者 4K 4^2 45 
的 最 终 顺 序 没有 意义 ， 之 后 的 某 轮 处 理会 根据 更 高 位 字符 的 不 同 修正 这 对 键 6。Q v2 47 
的 顺序 。 4] v3 49 
老式 的 卡片 打 孔 排序 机 使 用 的 就 是 低位 优先 的 基数 排序 法 。 这 类 机 器 。 *A 4^3 10 


开发 于 20 世纪 初期 ， 比 用 计算 机 处 理 商 业 数据 的 时 代 早 了 数 十 年 。 这 种 机 。 v9 。3 。Q 
器 能 够 根据 卡片 上 被 选 定 列 中 孔 的 模式 将 一 组 卡片 分 别 放 入 10 个 盒子 中 。 “3 “4 $k 
如 果 多 个 数字 被 打 在 这 组 卡片 的 多 个 列 上 ， 操 作 员 将 所 有 卡片 排序 的 方法 。 *K v4 v2 
就 是 先 根据 最 右边 的 数字 排序 ， 然 后 将 所 有 卡片 按照 顺序 释 好 并 再 次 根据 45 45 v4 


赣 
Ee 


到 数 第 二 个 数字 排序 ， 如 此 这 般 直 到 排序 第 一 个 数字 为 止 。 将 所 有 已 被 排 3 “3 YE 
序 的 卡片 按 顺序 再 次 释放 就 是 一 个 稳定 的 过 程 ， 键 索引 计数 法 模仿 了 这 个 2  v5 v7 
过 程 。 在 整个 20 世纪 70 年 代 ， 这 个 版 本 的 低位 优先 基数 排序 法 不 仅 在 商  *9 “6 v9 
业 领 域 非常 重要 ， 许 多 严谨 的 程序 员 ( 和 学 生 ! ) 也 使 用 它 ， 因 为 他 们 需 XY4 ?6 好 
要 将 程序 保存 在 打 了 孔 的 卡片 上 ( 每 张 卡片 上 一 行 ) 并 且 会 在 一 组 完整 表 v4 v7 vQ 
示 某 个 程序 的 卡片 的 最 后 几 列 打 上 序号 ， 这 样 即使 卡片 散乱 之 后 也 能 将 它 shA A7 。A 
们 重新 按 顺 序 排列 。 这 也 是 一 种 将 扑克 牌 排序 的 简洁 方法 : 将 所 有 牌 ( 按 3 ?8 3 
大 小 ) 分 成 13 堆 ， 按 顺序 从 13 堆 牌 中 抽取 同 种 花色 的 扑克 牌 ， 最 后 将 13 v8 v8 。4 
堆 牌 ( 按 花色 ) 变 为 4 堆 。 分 牌 的 过 程 是 稳定 的 ， 因 此 花色 中 的 牌 也 是 有 。K “8 。6 
序 的 ， 所 以 按照 花色 将 这 4 堆 牌 合并 即 可 得 到 一 副 已 排序 的 扑克 牌 , 请 见 27 so ?8 
图 5.1.7。 vO 4^9 499 

在 许多 字符 串 排 序 的 应 用 中 ( 甚至 对 于 某 些 州 的 车 牌号 ) ， 键 的 长 度 。 A6 sl10 。] 
可 能 互 不 相同 。 改 进 后 的 低位 优先 的 字符 串 排序 是 可 以 适应 这 些 情况 的 , 但 *3 0 8 
我 们 将 这 个 任务 留 作 练习 , 因为 下 面 将 学 习 两 种 专门 处 理 变 长 键 排序 的 算法 。 “8 v10 *A 

从 理论 上 说 ， 低 位 优先 的 字符 串 排序 的 意义 重大 ， 因 为 它 是 一 种 适用 *3 wv] +%3 
于 一 般 应 用 的 线性 时 间 排 序 算法 。 无 论 V 有 多 大 ， 它 都 只 遍历 灰 次 数据 。 YY7 ?] 5 
具体 描述 如 下 。 4Q ¢Q 26 


命题 B( 续 ) 。 对 于 基于 RR 个 字符 的 字母 表 的 入 个 以 长 为 画 的 字符 串 vk aK 10 
为 键 的 元 素 ， 低 位 优先 的 字符 串 排序 需要 访问 ~7WVN+3WR 次 数组 ,使 Ye *K 2D 
用 的 额外 空间 与 N+R 成 正比 。 “8 vk ak 
证 明 。 该 方法 等 价 于 进行 不 轮 键 索引 计数 法 ， 但 是 aux[] 只 会 被 初始 ”图 5.1.7 0 
化 一 次 。 根 据 前 面 的 代码 和 命题 A 即 可 得 到 算法 访问 数组 和 使 用 空间 排序 算法 
的 总 数 。 将 一 副 扑 

克 牌 排序 


对 于 典型 的 应 用 ,R 远 小 于 NN， 因 此 命题 B 说 明 算法 的 总 运行 时 间 与 WN 成 正比 。N 个 长 为 
丈 的 字符 串 的 输入 总 共 含有 WN 个 字符 ， 因 此 低位 优先 的 字符 串 排 序 的 运行 时 间 与 输入 的 规模 成 
正比 。 
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5.1.3 ”高 位 优先 的 字符 串 排 序 
要 实现 一 个 通用 的 字符 串 排 序 算法 ( 字符 串 的 长 度 不 一 定 相 同 ) ， 我 们 应 该 考虑 从 左 向 右 遍 历 
所 有 字符 。 我 们 知道 ， 以 a 开头 的 字符 串 应 该 排 在 以 b 开头 的 字符 串 前 面 ， 等 等 。 实 现 这 种 思想 的 
2] AK AA 一 个 很 自然 方法 就 是 一 种 递归 算法 , 被 称 为 高 位 优先 (MSD ) 的 字符 串 排 序 ， 
v6 4] «2 请 见 图 5.1.8。 首 先 用 键 索引 计数 法 将 所 有 字符 串 按 照 首 字 母 排 序 , 然后 ( 弟 
vA 5 44 归 地 ) 再 将 每 个 首 字母 所 对 应 的 子 数组 排序 ( 忽略 首 字母 ， 因 为 每 一 类 中 
v] AA A6 的 所 有 字符 串 的 首 字母 都 是 相同 的 ) 。 和 快速 排序 一 样 ， 高 位 优先 的 字符 
+*Q 43 47 串 排序 会 将 数组 切 分 为 能 够 独立 排序 的 子 数组 来 完成 排序 任务 ， 但 它 的 切 
4] 4^6 «9 分 会 为 每 个 首 字 母 得 到 一 个 子 数组 ， 而 不 是 像 快速 排序 中 那样 产生 固定 的 
9 BW 两 个 或 三 个 切 分 ， 请 见 图 5.1.9。 
v9 «10 «aQ 5.1.3.1 ”对 字符 串 末 尾 的 约定 
a9 v6 vA 在 高 位 优先 的 字符 串 排序 算法 中 , 要 特别 注意 到 达 字 符 串 末尾 的 情况 。 
64 vv v3 在 排序 中 ,合理 的 做 法 是 将 所 有 字符 都 已 被 检查 过 的 字符 串 所 在 的 子 数组 排 
«5 99 wv4 在 所 有 子 数组 的 前 面 , 这 样 就 不 需要 递归 地 将 该 子 数组 排序 , 请 见 图 5.1.10。 
v3 v7 v6 为 了 简化 这 两 步 计算 ,我 们 使 用 了 一 个 接受 两 个 参数 的 私有 方法 charAt 0) 
:10 v8 v8 来 将 字符 串 中 字符 索引 转化 为 数组 索引 ， 当 指定 的 位 置 超过 了 字符 串 的 末 
49 vQ v9 尾 时 该 方法 返回 -1。 然 后 将 所 有 返回 值 加 1， 得 到 一 个 非 负 的 int 值 并 用 
as4 v2 wy] 它 作为 count[] 的 索引 。 这 种 转换 意味 着 字符 串 中 的 每 个 字符 都 可 能 产生 


| 王 


410 v5 vkK R+1 种 不 同 的 值 : 0 表示 字 
AA oA oA 以 首 字母 排序 来 将 递归 地 排序 子 数 i Ue 
+5 +0 +2 数组 切 分 为 子 数组 组 (忽略 首 字 母 ) 稼 囊 的 结尾 ，1 表示 字母 表 
“ 43 9 的 第 一 个 字符 ，2 表示 字母 
4 |- 在 和 一 人 AAA Par a 名 
> 9 。 表 的 第 二 个 字符 ， 等 等 。 因 
-A 2 i 为 键 索引 计数 法 本 来 就 需要 
ss7 eK 。8 一 个 额外 的 位 置 ， 所 以 使 用 
pe - Ss : 代码 int count[] = new 
由 过 | 上- ; int[R+2]; 创建 记录 统计 频 |708 
1 El 
6 ek 2 ; 率 的 数组 ( 将 所 有 值 设 为 0)。 |710 
2 > i 
0 “5 - : 注意 : 某 些 编程 语言 ， 特 别 
ww [Eee | 是 C 和 C++， 已 经 约定 了 字 
4 7 符 串 结束 的 表示 方法 ， 因 此 
0 对 于 这 类 语言 本 节 的 代码 需 
0 i 要 进行 相应 的 调整 。 
vK 4%7  »10 r r 有 了 这 些 预备 知识 ， 就 
5 3 可 E EI 
we 会 知道 算法 5.2 实现 高 位 优 
站 | 先 的 字符 串 排序 算法 所 需 的 
图 5.1.8 用 高 位 优先 新 代码 其 实 并 不 多 。 增 加 了 
的 字符 串 排 一 个 条 件 语句 以 在 子 数 组 较 
法 rc 、 
序 算法 将 小 时 切换 至 插入 排序 ， ( 这 里 


副 扑克 牌 排 : 
序 加 5.1.9 高 位 优先 的 字符 囊 排序 的 示意 图 。 ”使 用 的 是 一 个 特殊 版 本 的 插 
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入 排序 ， 我 们 会 在 稍 后 考察 。 ) 还 添加 了 一 个 键 索引 计数 法 的 循 。 ”输入 排序 结果 
环 来 完成 递归 调用 。 从 表 5.1.1 可 知 ，count[] 数组 中 的 值 ( 在 0 oo 
统计 频率 、 转 换 为 索引 并 将 数据 分 类 之 后 ) 正 是 将 每 个 字符 所 对 caashelie seashells 
应 的 子 数组 (递归 地 ) 排序 时 所 需要 的 值 。 by seashells 
the seashore 
5.1.3.2 指定 的 字母 表 seashore sells 
r= 0 A ~ zh 日 > es EE da =) 人 th 11 
高 位 优先 的 字符 串 排序 的 成 本 与 字母 表 中 的 字符 数量 有 很 大 she]1。 ee 
关系 。 我 们 可 以 很 容易 地 修正 排序 算法 ， 接 受 一 个 Alphabet 对 。。 she- 一 入 仙人 。she 
象 作为 参数 , 以 改进 基于 较 小 的 字母 表 的 字符 串 排序 程序 的 性 能 。 人 ee 
完成 这 一 点 需要 进行 如 下 改动 ; surely the 
口 在 构造 函数 中 用 一 个 alpha 对 象 保存 字母 表 ; seashells the 
口 在 构造 函数 中 将 R 设 为 alpha.RQO; 
SS tg pe nT 图 5.1.10 适 于 使 用 高 位 优先 
任 charAt() 法 等 s.charAt(d) alpha. 的 字符 串 排 序 的 典 
toIndex(s.charAt(d)), 型 情况 
表 5.1.1 高 位 优先 的 字符 串 排序 中 count[] 数组 的 意义 
第 d 个 字符 排序 的 count[r] 的 什 
完成 阶段 r=0 r=1 r 在 2 与 R-1 之 间 | r=R r=R+1 
a 0 (未 使 用 ) 长 度 为 d 的 字符 | 第 d 个 字符 的 索引 值 是 r-2 的 字符 串 
频率 统计 串 数量 的 数量 
de 长 度 为 d 的 字符 串 的 子 数组 | 第 d 个 字符 的 索引 值 是 r-1 的 字符 串 的 子 数组 | 未 使 用 
| | 的 起 始 索引 
第 d 个 字符 的 索引 值 为 r 的 字符 串 的 子 数组 的 起 始 索 引 未 使 用 
数据 分 类 1+ 长 度 为 d 的 字符 串 的 子 数 | 1+ 第 d 个 字符 串 的 索引 值 是 r-1I 的 字符 串 的 子 | 未 使 用 
组 的 结束 索引 数组 的 结束 索引 


在 本 节 的 示例 中 ,字符 串 都 是 由 小 写字 母 组 成 的 。 扩 展 低位 优先 的 字符 串 排 序 算法 以 支持 这 种 
特性 也 很 简单 ， 但 带 来 的 性 能 提升 一 般 比 高 位 优先 的 字符 捉 排 序 小 得 多 。 


算法 5.2 ”高 位 优先 的 字符 串 排序 


public class MSD 
{ 

private static int R = 256; // 基数 
private static final int M = 15; // 小 数组 的 切换 阅 值 
private static String[] aux; // 数据 分 类 的 辅助 数组 
private static int charAt(String s, int d) 


{ if (d < s.length()) return s.charAt(d); else return -1; } 


public static void sort(String[] a) 
{ 

int N = a.length; 

aux = new String[N]; 

sort(a, 0, N-1, 0); 
} 


private static void sort(String[] a, int lo, int hi, int d) 


{ // 以 第 d 个 字符 为 键 将 a[10] 至 a[h 记 排序 
if (hi <= lo + M) 
{ Insertion.sort(a, 1o, hi, d); return; 了 
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int[] count = new int[R+2]; // 计算 频率 

for (int i = lo; i <= hi; i++) 
count[charAt(a[i], d) + 2]++; 

for Cint r = 0; r < R+l; r++) // 将 频率 转换 为 索引 
Count[r+1] += count[r]; 

for (Cint 1 = 1o; i <= hi; i++) // 数据 分 类 
aux[count[charAt(a[i], d) + 1]++] = ari]; 

for (int i = lo; i <= hi; i++) // 回 写 
a[i] = aux[i - 1o]; 

// 递归 的 以 每 个 字符 为 键 进行 排序 

for Cint r = 0; r < R; r++) 
sort(a, lo + count[r], lo + count[r+1] - 1, d+1); 


} 
} 
在 将 一 个 字符 串 数 组 a[] 排序 时 , 首先 根据 它们 的 首 字母 用 键 索引 计 数 法 进行 排序 , 然后 ( 递归 地 ) 
根据 子 数组 中 的 字符 串 的 首 字 母 将 子 数 组 排序 。 712 


算法 5.2 中 的 代码 的 简洁 令 人 刮目相看 ， 它 隐藏 了 一 些 非 常 复杂 的 计算 。 花 些 时 间 深 入 研究 图 
5.1.11 所 示 的 算法 顶层 调用 轨迹 和 图 5.1.12 中 递归 调用 的 轨迹 以 确保 你 理解 了 这 个 算法 的 精妙 之 处 ， 
这 些 时 间 不 会 白花 。 在 这 段 轨迹 中 ， 小 数组 的 插入 排序 切换 阔 值 (M) 为 0， 因 此 你 可 以 看 到 完整 
的 排序 过 程 。 在 这 个 例子 中 ,字符 串 来 自 于 Alphabet.LOWERCASE， 其 中 R=26。 一 般 的 应 用 使 用 
的 大 都 是 R=256 的 Alphabet.EXTENDED_ASCII， 或 是 R=65 536 的 Alphabet.UNICODE16。 对 于 
较 大 的 字母 表 ， 高 位 优先 的 排序 算法 虽然 简单 但 可 能 会 很 危险 如 果 使 用 不 当 ， 它 可 能 会 消耗 
令 人 无 法 承受 的 时 间 和 空间 。 在 仔细 研究 它 的 性 能 特点 之 前 ， 我 们 要 先 讨 论 三 个 在 任何 应 用 中 都 
必须 解决 的 重要 的 问题 ( 这 些 问题 曾 在 第 2 章 中 讨论 过 ) 。 


使 用 键 索引 计数 法 对 首 字 母 排 序 递归 地 将 子 数组 排序 
记录 频率 。 换 为 索引 将 数据 分 。 数据 分 类 结束 后 的 索引 
加 0 sort(a, 0, 0, 1); 

3 到 al| 0 a af1 sort(a，1，1，1); 
s bi 1 b 工 b b| 2 

由 y 
S S 
b S ea 
七 S eashells 
S S eashells 
S S ells 
七 S ells 
S S he 
S S he 
S S hells 
a S hore 
S 七 引 sort(a，2，11，1); urely 

3 s| 2 s ort(a, 12, 13, 1D); 

S tI10 t|12 NN t 人 车 . he 

2 s 的 子 数组 的 开始 索引 he 

s 的 子 数组 的 结束 索引 +1 


加 


5.1.11 高 位 优先 的 字符 串 排 序 : sort(a，0，14，0) 的 顶层 轨迹 
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2 
714 


了 了 


,yyy 
w 


对 于 相同 的 键 ， 所 有 


2 的 字符 都 会 被 检查 


输入 d 
She a | 
sells b 1o 
seashells Ss ~ e 
by S 他 
the S e 
Sea s e 
shore s e 
the s h 
shells s h 
she s h 
sells s h 
are s U 
Surely 七 hi- 一 
seashells 七 

s 

s 

] 


字符 串 的 结尾 
大 于 任何 字符 


输出 
are 
by 
sea 
seashells 
seashells 
sells 
sells 


组 已 被 省 略 ) 


5.1.3.3 ”小 型 子 数 组 


mn np 
dl 


she 
she 
shells 


shore 
surely 
h e the 
h e the 


图 5.1.12 ”高 位 优先 的 字符 串 排序 的 递归 调用 轨迹 (小 数组 不 会 切换 到 插入 排序 ， 大 小 为 0 和 1 的 子 数 


高 位 优先 的 字符 串 排序 的 基本 思想 是 很 有 效 的 : 在 一 般 的 应 用 中 ， 只 需 检查 知 干 个 字符 就 能 完 


成 所 有 字符 串 的 排序 。 换 句 话说， 


这 种 方法 能 够 快速 地 将 需 


种 切 分 也 是 一 把 双 刃 剑 : 我 们 肯定 会 需要 处 理 大 量 微型 数组 ， 
对 于 高 位 优先 的 字符 串 排序 的 性 能 至 关 重要 。 我 们 在 其 他 递归 排序 算法 中 也 遇 到 过 这 种 情况 〈 快 速 
排序 和 归并 排序 ) ， 但 小 数组 对 于 高 位 优先 的 字符 串 排序 的 影 


百 万 个 不 同 的 ASCII 字符 串 ( R=256 ) 排序 | 


排序 的 数组 切 分 为 较 小 的 数组 。 但 这 


因此 必须 快速 处 理 它 们 。 小 型 子 数组 


向 尤其 强烈 。 例 如 ， 假 设 你 需要 将 数 


目 不 会 对 小 数组 进行 特殊 处 理 。 每 个 字符 串 最 终 都 会 7 


生 一 个 只 含有 它 自 己 的 子 数组 ， 因 此 你 需要 将 数 百 万 个 大 小 为 1 的 子 数组 排序 。 但 每 次 排序 都 需要 
将 count[] 的 258 个 元 素 初始 化 为 0 并 将 它们 都 转化 为 索引 。 这 种 代价 比 排序 的 其 他 部 分 要 高 很 多 。 
在 使 用 Unicode 时 ( R=65 536 ) ， 排 序 过 程 可 能 会 减 慢 上 千 倍 。 事 实 上 ， 正 因为 如 此 ， 许 多 使 用 排 
序 但 考虑 不 周 的 程序 在 从 ASCII 切换 到 Unicode 后 运行 时 间 从 几 分 钟 暴涨 到 几 个 小 时 。 因 此 ， 将 小 
数组 切换 到 插入 排序 对 于 高 位 优先 的 字符 串 排序 算法 是 必须 的 。 为 了 避免 重复 检查 已 知 相同 的 字符 


所 带 来 的 成 本 ,我 们 使 用 了 后 面 * 


EE 注 “ 对 前 d 个 字符 均 相 同 的 


字符 串 执 行 插入 排序 ”中 给 出 的 一 个 


版 本 的 插入 排序 。 它 接受 一 个 额外 的 参数 d 并 假设 所 有 需要 排序 的 字符 串 的 前 d 个 字符 都 是 相同 的 。 
这 段 代 码 的 效率 取决 于 substringQ 方法 所 需 的 时 间 是 否 为 常数 。 和 快速 排序 以 及 归并 排序 一 样 ， 
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一 个 较 小 的 转换 阔 值 就 能 将 性 能 提高 很 多 ， 但 对 于 高 100% 

位 优先 的 字符 串 排序 算法 它 节约 的 时 间 是 非常 可 观 的 。 ee 

图 5.1.13 显示 了 一 个 典型 应 用 中 的 实验 结果 。 在 长 度 和 个 随机 的 加 利 

小 于 等 于 10 时 将 子 数组 切换 到 插入 排序 能 够 将 运行 时 pe 
间 降 低 为 原来 的 十 分 之 一 。 


5.1.3.4 ”等 值 键 

高 位 优先 的 字符 串 排 序 中 的 第 二 个 陷阱 是 ， 对 于 
含有 大 量 等 值 键 的 子 数组 的 排序 会 较 慢 。 如 果 相 同 的 
子 字符 串 出 现 得 过 多 , 切换 排序 方法 条 件 将 不 会 出 现 ， 
那么 递归 方法 就 会 检查 所 有 相同 键 中 的 每 一 个 字符 。 
另外 ， 键 索引 计数 法 无 法 有 效 判断 字符 串 中 的 字符 是 
否 全 部 相同 : 它 不 仅 需要 检查 每 个 字符 和 移动 每 个 字 
符 串 ， 还 需要 初始 化 所 有 的 频率 统计 并 将 它们 转换 为 
索引 等 。 因 此 ， 高 位 优先 的 字符 串 排序 的 最 坏 情 况 就 
是 所 有 的 键 均 相同 。 大 量 含 有 相同 前 级 的 键 也 会 产生 . 
同样 的 问题 ， 这 在 一 般 的 应 用 场景 中 是 很 常见 的 。 0 ”10 ”切换 闹 值 50 715 
5.1.3.5 ”额外 空间 


50% 一 


25% 一 


运行 时 间 是 无 切换 版 本 运行 时 间 的 百分比 


运 

有 

x 
| 


图 5.1.13 高 位 优先 的 字符 串 排序 算法 中 


为 了 进行 切 分 ， 高 位 优先 的 算法 使 用 了 两 个 辅助 te 
数组 : 一 个 用 来 将 数据 分 类 的 临时 数组 ( aux[] ) 和 际 效果 


一 个 用 来 保存 将 会 被 转化 为 切 分 索引 的 统计 频率 的 数 
组 (count[] ) 。aux[] 的 大 小 为 N 且 可 以 在 递归 方法 sortG) 外 创建 。 如 果 牺 牲 稳定 性 ， 则 可 以 去 
掉 aux[] 数组 ( 请 见 练习 5.1.17 ) ， 但 它 并 不 是 高 位 优先 的 字符 串 排 序 算法 在 实际 应 用 中 所 关注 的 
内 容 。 相 反 ，count[] 所 需 的 空间 才 是 主要 问题 ( 因为 它 不 能 在 递归 方法 sortQ 〇 之 外 创建 ) ， 如 下 
文 的 命题 D 所 述 。 


pubilliesstatrnenvonc sonreetrnoa ne nd 
{ // 从 第 d 个 字符 开始 对 a[10] 到 a[hi] 排 序 


fopmGine lo eh 
ommintee lo lessGCalle a led 
exch(a, j, j-1); 
} 


private static boolean less(String v, String w, int d) 
{ return v.substring(d).compareTo(w.substring(d)) < 0; } 


对 前 d 个 字符 均 相 同 的 字符 串 执行 插入 排序 


5.1.3.6 ”随机 字符 串 模型 

为 了 研究 高 位 优先 的 字符 串 排序 算法 的 性 能 ， 我 们 使 用 了 一 个 随机 字符 串 模型 ， 其 中 每 个 字符 串 
都 《独立 地 ) 由 随机 字符 组 成 ， 长 度 没有 限制 。 这 实际 上 排除 了 出 现 较 长 的 等 值 键 的 情况 ， 因 为 它们 
出 现 的 几率 非常 小 ,高 位 优先 的 字符 串 排序 算法 在 这 个 模型 中 的 表现 和 随机 定 长 键 模型 中 的 表现 类 似 ， 
也 和 它 在 一 般 的 真实 数据 中 的 性 能 类 似 。 我 们 将 会 看 到 ， 在 这 三 种 情况 中 ， 高 位 优先 的 字符 串 排 序 算 
法 通常 都 只 需要 检查 每 个 键 开 头 的 若干 个 字符 即 可 。 
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5.1.3.7 ”性 能 


高 位 优先 的 字符 串 排 序 算法 的 性 能 取决 于 数据 。 对 提 随 机 字符 囊 
于 基于 比较 的 方法 ,我们 主要 关注 的 是 键 的 顺序 ， 对 于 随机 字符 串 。 且 有 重复 ( 接 。 最 坏 情况 


高 位 优先 的 字符 串 排 序 算法 ， 键 的 顺序 并 不 重要 ， 我 们 


( 亚 线性 时 间 ) ” 近 线 性 时 间 ) (线性 时 间 ) 


1E a 1DNB377 
关注 的 是 键 所 对 应 的 值 ， 请 见 图 5.1.14。 1H b 1DNB377 
口 对 于 随机 输入 ， 高 位 优先 的 字符 串 排 序 算法 只 LR S50 LDNESY7 

A pa ee we 2H seashells IDNB377 

会 检查 足以 区 别 字 符 串 所 需 的 字符 。 相对 于 输 2I seashells 1DNB377 

入 数据 中 的 字符 总 数 ， 算 法 的 运行 时 间 是 亚 线 2X sells 1DNB377 

性 的 〈《 它 只 会 检 杏 输入 空 科 和 一 小 部 3CD sells IDNB377 

性 的 ( A me, a 3 JDNB327 

口 对 于 非 随 机 的 输入 ， 高 位 优先 的 字符 串 排 序 算 3I she 1DNB377 

法 可 能 仍然 是 亚 线性 的 ， 但 需要 检查 的 字符 可 3K shel IDNB377 

能 比 随机 情况 下 更 多 。 特 别 是 对 于 相等 的 键 ， 3 江 

它 需 要 检查 它们 的 所 有 字符 ， 所 以 当 存在 大 量 4Q the 1DNB377 

等 值 键 时 它 所 需 的 运行 时 间 是 接近 线性 的 。 时 


口 在 最 坏 情 况 下 ， 高 位 优先 的 字符 串 排序 算法 会 


检查 所 有 键 中 的 所 有 字符 ， 所 以 相对 于 数据 


5.1.14 ”高 位 优先 的 字符 串 排 序 算法 的 
字符 检查 情况 


的 所 有 字符 它 所 需 的 运行 时 间 是 线性 的 ( 和 低 


位 优先 的 字符 串 排序 算法 相同 ) 。 
的 输入 中 所 有 的 字符 串 均 相 同 。 
某 些 应 用 程序 所 处 理 的 键 和 随机 字符 是 


最 坏 情况 下 


的 公共 前 级 ， 这 种 情况 下 排序 所 需 的 时 间 和 最 坏 情况 接近 。 比 如 ， 在 我 们 的 车 牌号 处 理应 用 程序 


模型 能 很 好 匹配 ， 而 有 些 则 含有 很 多 重复 的 键 或 是 较 长 


UD 


这 两 种 极端 情况 都 可 能 出 现 : 如 果 工 程 师 选 取 一 条 繁忙 的 州 际 公路 一 小 时 的 数据 ， 那 么 数据 中 的 重 
复 项 会 很 少 ， 符 合 随机 模型 ;如 果 取 的 是 一 条 乡间 小 道 一 个 星期 的 数据 ， 那 么 数据 中 肯定 会 有 大 量 
的 重复 项 ， 算 法 的 性 能 将 会 和 最 坏 情况 类 似 。 


命题 C。 要 将 基于 大 小 为 尺 的 字母 表 的 W 个 字符 串 排 序 ， 高 位 优先 的 字符 串 排序 算法 平均 需要 


检查 NlogaN 个 字符 。 


简略 证 明 。 我 们 希望 子 数组 的 大 小 几乎 都 是 相同 的 ， 因 此 递 推 关系 Cy=RCwgtN 可 以 近似 地 描 
述 算 法 的 性 能 并 得 到 命题 所 述 的 结果 。 它 也 是 第 2 章 中 快速 排序 性 能 证 明 的 一 般 化 证 明 。 另 一 
方面 ， 这 种 描述 并 不 完全 准确 ， 因 为 N/R 并 不 一 定 能 够 得 到 整数 ， 子 数组 的 大 小 相同 也 仅 是 平 
均 而 言 ( 而且 在 现实 中 键 的 长 度 是 有 限 的 )。 这 些 因素 对 高 位 优先 的 字符 串 排 序 算法 的 影响 比 
对 标准 快速 排序 算法 的 影响 小 ， 因 此 算法 运行 时 间 中 的 最 大 项 就 是 这 个 说 推 关 系 的 答案 。 这 个 
间 题 的 详细 证 明 是 算法 分 析 中 的 经 典 例子 ， 最 早 由 Knuth 完成 于 20 世纪 70 年 代 早 期 。 


作为 提示 以 及 对 为 何 该 证 明 已 经 超出 了 本 书 的 范围 的 说 明 ， 我 在 这 里 提醒 大 家 注意 ,命题 的 结 
论 和 键 的 长 度 是 无 关 的 。 事 实 上 ， 随 机 字符 串 模型 所 允许 的 键 长 接近 无 限 。 两 个 键 之 间 有 任意 多 的 
字符 相 吻 合 ， 这 个 可 能 性 不 是 零 ， 但 这 个 可 能 性 非常 小 ， 在 估计 性 能 时 可 以 将 其 忽略 。 

由 以 上 讨论 可 以 知道 ， 检 查 的 字符 数量 并 不 是 高 位 优先 的 字符 串 排 序 算法 性 能 的 全 部 。 我 们 还 


需要 考虑 统计 字符 的 出 现 频率 以 及 将 频率 转化 为 索引 所 需要 的 时 间 和 空间 。 
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命题 D。 要 将 基于 大 小 为 R 的 字母 表 的 和 个 字符 串 排 序 ， 高 位 优先 的 字符 串 排 序 算法 访问 数 
组 的 次 数 在 8N+ 3R 到 ~7wN+3wR 之 间 ， 其 中 w 是 字符 串 的 平均 长 度 。 


证 明 。 由 代码 、 命 题 A 和 命题 B 可 得 , 在 最 好 情况 下 高 位 优先 的 排序 算法 只 需 遍 历数 据 一 轮 ; 
而 在 最 坏 情 况 下 ， 它 和 低位 优先 的 字符 串 排 序 算法 的 性 能 类 似 。 


当 鸭 较 小 时 ,，R 是 主要 因子 。 尽 管 对 总 成 本 的 精确 分 析 是 困难 而 复杂 的 ,但 你 只 需 考虑 无 重复 
键 的 情况 下 所 有 较 小 的 子 数组 就 可 以 估计 出 该 成 本 的 实际 效果 。 在 不 为 较 小 的 子 数组 切换 排序 方法 
的 情况 下 ， 每 个 键 都 会 产生 一 个 单独 的 子 数组 ， 因 此 仅 为 处 理 这 些 子 数组 就 需要 访问 NR 次 数组 。 
如 果 为 小 于 M 的 数组 切换 排序 方法 ， 将 会 有 N/M 个 大 小 为 M 的 子 数组 ， 因 此 等 于 是 在 用 NM/4 次 
比较 换取 NR/M 次 数组 访问 ， 这 说 明 应 该 选择 与 R 的 平方 根 成 正比 的 M。 


命题 D( 续 ) 。 要 将 基于 大 小 为 R 的 字母 表 的 个 字符 串 排 序 ， 最 坏 情况 下 高 位 优先 的 字符 串 
排序 算法 所 需 的 空间 与 尺 乘 以 最 长 的 字符 串 的 长 度 之 积 成 正比 (再 加 上 N) 。 


证 明 。count[] 数组 必须 在 sort() 中 创建 ， 因 此 空间 需求 的 总 量 与 及 和 递归 的 深度 之 积 成 
正比 (再 加 上 辅助 数组 的 大 小 N) 。 准 确 地 说 ， 递 归 的 深度 即 最 长 字符 串 的 长 度 ， 也 就 是 两 
个 或 多 个 被 排序 的 字符 囊 的 公共 前 级 的 长 度 。 


正如 刚才 所 讨论 的 ， 相 等 的 键 使 得 递归 的 深度 和 键 的 长 度 成 正比 。 由 命题 D 马上 可 以 推论 
出 ， 在 用 高 位 优先 的 字符 串 排 序 算法 将 基于 大 型 字母 表 的 长 字符 串 排序 时 ， 它 很 有 可 能 消耗 过 多 的 
时 间或 者 空间 ， 特 别 是 在 已 知 可 能 出 现 较 长 的 等 值 键 的 情况 下 。 例 如 ， 如 果 使 用 的 是 Alphabet. 
UNICODE16 目 某 些 字符 串 中 公共 前 级 的 长 度 超 过 1000 个 字符 ， 那 么 MSD .sort0 将 需要 为 超过 
6500 万 个 计数 器 元 素 分 配 空间 ! 

在 将 长 字符 串 排序 时 ， 令 高 位 优先 的 字符 串 排序 算法 发 挥 出 最 大 效率 的 主要 挑战 在 于 处 理 数 据 中 
的 非 随机 因素 。 一 般 来 说 ， 一 些 键 可 能 存在 较 长 的 公共 部 分 ， 或 者 部 分 键 的 取 值 范围 有 限 。 比 如 ,在 
处 理学 生 信息 的 应 用 程序 中 , 数据 的 键 可 能 是 毕业 年 份 (4 个 字 节 , 但 只 有 4 种 可 能 的 值 ) , 州 名 (可 
能 需要 10 个 字 节 ， 但 只 有 50 种 可 能 的 值 ) ， 性 别 (1 个 字 节 ，2 种 值 ) 以 及 学 生 的 姓名 〈 和 随机 字 
符 串 最 接近 ， 但 有 可 能 很 长 ， 字 母 出 现 频率 的 分 布 并 不 均匀 且 当 该 栏 长 度 固 定时 字符 串 的 末尾 会 被 添 
加 许多 空格 ) 。 这 些 限制 使 得 高 位 优先 的 字符 串 排 序 算法 会 产生 许多 空子 数组 。 下 面 我 们 将 学 习 一 种 
能 够 漂亮 地 解决 这 个 问题 的 算法 。 


5.1.4 三 向 字符 串 快 速 排序 

我 们 也 可 以 根据 高 位 优先 的 字符 串 排序 算法 改进 快速 排序 ， 根 据 键 的 首 字 母 进行 三 向 切 分 ， 仅 
在 中 间 子 数组 中 的 下 一 个 字符 ( 因为 键 的 首 字母 都 与 切 分 字符 相等 ) 继续 递归 排序 。 这 个 算法 的 实 
现 并 不 困难 ， 请 见 算法 5.3: 我 们 只 是 为 算法 2.5 中 的 递归 方法 添加 了 一 个 参数 来 保存 当前 的 切 分 字 
母 并 令 三 向 切 分 的 代码 使 用 该 字符 ， 然 后 适当 修改 递归 调用 ， 请 见 图 5.1.15。 

尽管 排序 的 方式 有 所 不 同 ,但 三 向 字符 串 快速 排序 根据 的 仍然 是 键 的 首 字母 并 使 用 递归 方法 将 
其 余部 分 的 键 排序 。 对 于 字符 囊 的 排序 ， 这 个 方法 比 普通 的 快速 排序 和 高 位 优先 的 字符 串 排序 更 友 
好 。 实 际 上 ， 它 就 是 这 两 种 算法 的 结合 。 
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三 向 字符 是 


切 分 较 多 时 ， 


要 的 一 点 是 ， 


字 


符 


囊 


请 见 图 


快速 排序 只 将 数组 切 分 为 三 部 分 ， 因 此 当 相应 的 高 位 优先 的 字符 串 排序 产生 的 非 空 
它 需 要 移动 的 数据 量 就 会 变 大 ， 因 为 它 需 要 进行 一 系列 的 三 向 切 分 才能 取得 多 向 切 分 
的 效果 。 但 是 ， 高 位 优先 的 字符 串 排 序 可 能 会 创建 大 量 ( 空 ) 子 数组 ， 而 三 向 
分 总 是 只 有 三 个 。 因 此 三 向 字符 串 快速 排序 能 够 很 好 处 理 等 值 键 、 有 和 较 长 公共 前 级 的 键 、 取 值 范围 
较 小 的 键 和 小 数组 一 一 所 有 高 位 优先 的 字符 串 排 序 算法 不 善 长 的 各 种 情况 ， 
这 种 切 分 方法 能 够 适应 键 的 不 同 部 分 的 不 同 结构 。 和 快速 排序 一 样 ， 
排序 也 不 需要 额外 的 空间 ( 递归 所 需 的 隐 式 栈 除外 ), 这 是 它 相 比 高 位 优 4 


字符 串 快 速 排序 的 切 


5.1.16。 特 别 重 
三 向 字符 串 快 速 


的 字符 串 排序 的 一 大 优点 ， 


输入 排序 结果 
edu.princeton.cs com.adobe 
com.apple com.apple 
edu.princeton.cs com.cnn 
com.cnn ye com.google 

较 长 的 公 。 
com.google 共 前 级 edu.princeton.cs 

Ey A 押 
edu.uva.cs edu.princeton.cs 
edu.princeton.cs edu.princeton.cs 
edu.princeton.cs .www edu.princeton.cs .ww 
edu.uva.cs edu.princeton.ee 

和 合 饶 
edu.uva.cs 一 一 重复 键 edu.uva.cs 
edu.uva.cs edu.uva.cs 
com.adobe edu.uva.cs 
edu.princeton.ee edu.uva.cs 
图 5.1.16 适 于 使 用 三 向 字符 串 快速 排序 的 典型 情况 


显示 了 Quick3string 在 处 理 样 例 数据 时 产生 的 所 有 递归 调用 。 每 个 子 数组 都 正好 只 


E 序 ， 只 是 省 略 了 中 间 子 数组 中 到 达 ( 相等 的 ) 字符 串 的 结尾 时 的 递归 


后 者 在 统计 频率 和 使 用 辅助 数组 时 都 需要 空间 。 
使 用 首 字母 将 数据 切 递归 地 将 子 数组 排 

分 为 “小 于 ”、 “等 序 (在 “等 于 ” 子 

于 ”和 “大 于 ”的 三 数组 中 忽略 首 字母 ) 

个 子 数 组 

图 5.1.15 三 向 字符 串 快 速 排序 的 示意 图 

图 5.1.17 

用 了 三 个 递归 调用 就 完成 了 提 
调用 。 


和 以 前 一 样 ， 在 实际 应 
小 型 子 数组 

在 所 有 的 递归 算法 中 ， 我 们 都 可 以 通过 对 小 型 子 数组 进行 特殊 处 理 来 提高 效率 。 这 里 使 
执行 插入 排序 ”中 的 插入 排序 ， 


5.1.4.1 


j 中 下 列 对 算法 5.3 的 标准 改进 都 是 很 值得 考虑 的 。 


5.1.3.3 小 节 的 框 注 


FP 的 “对 并 


5.1.4.2 ”有 限 的 字母 表 
为 了 处 理 特殊 的 字母 表 ， 可 以 为 所 有 方法 添加 一 个 Alphabet 类 型 的 参数 alpha 并 在 charAt 0 
方法 中 将 s.charAt(d) 替换 为 alpha.toIndex(s.charAt(d))。 在 这 里 ， 这 么 做 并 不 能 得 到 什么 收 


二 
上 Tej o 


Td 个 字符 均 相 同 的 字符 上 
已 知 相等 的 字符 。 这 项 修改 带 来 的 改进 会 很 明显 ， 
位 优先 的 字符 串 排序 的 重要 怕 


的 是 
它 能 够 跳 过 


尽管 它 在 三 向 字符 串 排 序 的 习 


EE 要 性 远 不 如 它 在 高 
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益 ， 相 反 添 加 这 段 代 码 可 能 会 大 幅 降低 算法 的 运行 速度 ， 因 为 它 在 内 循环 之 中 。 


还 需要 两 轮 切 分 才 
区 5 are 灰色 方 框 表 示 空 子 数 组 能 到 达 字 符 串 的 结尾 
s a by 
s s e a sea 
b Ss e a h e| 1 1 
七 s e a h e 1 1 
s s e 1 s sells sells 
is Ss ge | 1 S sells sells 
七 Ss h e she 
is Ss h e she 
s 上 | hs 不 再 进行 递归 调 
's s h o shore 用 (已 到 字符 串 尾 ) 
a s h surely 
s t t| h e| the 
s t 七 h e| the 
到 5.1.17 三 向 字符 串 快 速 排序 的 递归 调用 轨迹 (不 在 子 数组 较 小 时 切换 排序 方法 ) 


算法 5.3 三 向 字符 串 快速 排序 


public class Quick3string 
{ 
private static int charAt(String s, int d) 
{ if (d < s.length()) return s.charAt(d); else return -1; } 
public static void sort(String[] a) 
{ sort(a, 0, a.length - 1, 0); 了 
private static void sort(String[] a, int lo, int hi, int d) 
{ 
if (hi <= 10) return; 
ht Tt 60 ot Nis 
int v = charAt(a[lo], d); 
int 1 = lo + 1; 
while (i <= gt) 


{ 
int 七 = charAt(a[i], d); 
下 (t < VvV) exch(a, lt++, i++); 
else if (t > v) exch(a, i1i, gt--); 
else ++; 

} 


// allo..1t-1] < v = a[lt..gt] < a[gt+1..hil] 
sort(a, lo, lt-1, d); 

if (v >= 0) sort(a, 1t, gt, d+1); 

sort(a, gt+1, hi, d); 


} 
在 将 字符 串 数 组 a[] 排序 时 ， 根 据 它们 的 首 字 母 进行 三 向 切 分 ,然后 (递归 地 ) 将 得 到 的 三 个 子 数 


组 排序 ， 一 个 含有 所 有 首 字母 小 于 切 分 字符 的 字符 串 子 数组 ， 一 个 含有 所 有 首 字母 等 于 切 分 字符 的 字符 “|719 
串 的 子 数组 (排序 时 忽略 它们 的 首 字母 ) ， 一 个 含有 所 有 首 字母 大 于 切 分 字符 的 字符 串 的 子 数 组 。 721 
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5.1.4.3 ”随机 化 

和 快速 排序 一 样 ， 最 好 在 排序 之 前 将 数组 打 乱 或 是 将 第 一 个 元 素 和 一 个 随机 位 置 的 元 素 交 换 以 
得 到 一 个 随机 的 切 分 元 素 。 这 么 做 主要 是 为 了 预防 数组 已 经 有 序 或 是 接近 有 序 的 最 坏 情况 。 

对 于 字符 串 类 型 的 键 ， 标 准 的 快速 排序 以 及 第 2 章 中 的 其 他 排序 方法 实际 上 都 是 高 位 优先 类 的 
字符 串 排 序 算法 , 这 是 因为 String 类 的 compareTo() 方法 是 从 左 到 右 访问 字符 串 中 的 所 有 字符 的 。 
也 就 是 说 ，compareTo() 在 首 字 母 不 同时 只 会 访问 首 字 母 ， 在 首 字母 相同 且 第 二 个 字母 不 同时 只 会 
访问 它们 的 前 两 个 字母 ， 等 等 。 例 如 ， 如 果 所 有 字符 串 的 首 字 母 均 不 相同 ， 标 准 的 排序 算法 只 会 检 
查 这 些 首 字母 ， 这 就 自动 实现 了 一 些 我 们 希望 对 高 位 优先 的 字符 串 排 序 算法 的 改进 。 三 向 字符 串 排 
序 背后 的 核心 思想 是 对 首 字母 相同 的 键 采取 特殊 的 策略 。 实 际 上 你 可 以 把 算法 5.3 看 作对 标准 快速 
排序 的 改进 ， 使 之 能 够 记录 已 知 相同 的 多 个 开头 字母 。 在 较 小 的 子 数组 中 ， 排 序 所 需 的 大 多 数 比较 
都 已 经 完成 ， 其 中 的 字符 串 很 可 能 含有 多 个 相同 的 开头 字母 。 标 准 的 方法 在 每 次 比较 时 仍然 需要 扫 
描 整 个 字符 串 ， 但 三 向 字符 串 快速 排序 则 可 以 避免 这 一 点 。 
5.1.4.4 性 能 

考虑 字符 串 键 都 很 长 的 情况 ( 简单 起 见 ， 长 度 均 相同 ) 上 且 键 前 面 的 大 半 部 分 字母 均 相 同 。 在 这 
种 情况 下 ， 标 准 快速 排序 的 性 能 与 字符 串 的 长 度 乘 以 2NlnN 成 正比 ， 而 三 向 字符 串 排 序 的 运行 时 间 
则 与 YX 乘 以 字符 串 的 长 度 (需要 发 现 所 有 的 相同 开头 字母 ) 再 加 上 2MinV 次 比较 (对 剩 下 的 较 短 部 
分 进行 排序 ) 的 和 成 正比 。 也 就 是 说 ， 三 向 字符 串 快速 排序 所 需 比较 的 字符 最 多 比 普通 的 快速 排序 
少 2InN 个 。 实 际 排序 应 用 中 人 处 理 的 键 和 这 个 例子 类 似 的 情况 也 并 不 少见 。 


命题 E。 要 将 含有 N 个 随机 字符 串 的 数组 排序 , 三 向 字符 串 快 速 排 序 平均 需要 比较 字符 ~ 2NInN 次 。 


证 明 。 我 们 可 以 用 两 种 方式 来 理解 这 个 结论 。 首 先 ， 将 这 个 方法 看 作 在 快速 排序 中 用 首 字 母 切 
分 并 (递归 地 ) 调用 相同 的 方法 将 子 数组 排序 ， 那么 它 所 需 的 操作 数量 和 普通 的 快速 排序 相同 
就 一 点 也 不 奇怪 了 一 一 但 这 只 是 比较 单个 字符 所 需 的 操作 ， 而 非 比较 整个 键 所 需 的 次 数 。 其 次 ， 
可 以 将 这 个 方法 看 作用 快速 排序 代 蔡 了 键 索 引 计数 法 ， 根 据 命题 C， 我 们 预计 的 运行 时 间 为 
NilogaV 与 2InN 的 积 , 这 是 因为 快速 排序 需要 2RInR 步 来 将 RR 个 字符 排序 , 而 对 于 相同 的 字符 串 ， 
高 位 优先 的 字符 串 排序 算法 只 需要 只 步 。 这 里 就 不 给 出 完整 的 证 明了 。 


我 们 曾 在 5.1.3.7 节 强 调 过 ， 随 机 字符 串 模 型 是 很 有 用 的 ， 但 要 预测 实际 情况 下 算法 的 性 能 还 需 
要 更 仔细 的 分 析 。 研 究 者 已 经 对 这 个 算法 进行 了 深入 的 研究 并 已 经 证 明 在 非常 一 般 的 假设 下 ， 其 他 
算法 最 多 比 三 向 字符 串 快 速 排 序 快 常数 级 别 ( 以 比较 的 字符 数量 衡量 ) 。 它 的 应 用 非常 广泛 ， 因 为 
三 向 字符 串 快 速 排序 的 性 能 并 不 直接 取决 于 字母 表 的 大 小 。 
5.1.4.5 举例: 网 站 日 志 

作为 三 向 字符 串 快 速 排序 锥 立 鸡 群 的 一 个 示例 , 我 们 来 考察 一 个 现代 系统 中 的 典型 数据 处 理 任务 。 
假设 你 架设 了 一 个 网 站 并 希望 分 析 它 产生 的 流量 。 你 可 以 从 系统 管理 员 那 里 得 到 网 站 的 所 有 活动 , 每 项 
活动 的 信息 中 都 含有 发 起 者 的 域名 。 例 如 ， 本 书 网 站 上 的 week.log.txt 文件 中 包含 的 就 是 该 网 站 一 个 星 
期 中 的 所 有 活动 。 为 什么 三 向 字符 串 快 速 排序 能 够 有 效 处 理 这 种 文件 呢 ? 因为 排序 结果 中 许多 字符 串 都 
有 很 长 的 公共 前 级 ， 而 这 种 算法 不 会 重复 检查 它们 。 


5.1.5 ”字符 串 排序 算法 的 选择 
我 们 很 自然 会 对 这 里 的 字符 串 排序 算法 和 第 2 章 中 的 通用 排序 算法 的 对 比 感 兴趣 。 表 5.1.2 总 
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结 了 本 节 所 讨论 过 的 字符 串 排序 算法 的 重要 特征 〈 快速 排序 、 归 并 排序 和 三 向 快速 排序 的 数据 来 自 
第 2 章 ， 以 供 比较 ) 。 


表 5.1.2 各 种 字符 串 排序 算法 的 性 能 特点 


在 将 基于 大 小 为 R 的 字母 表 的 NN 个 字 
符 串 排序 的 过 程 中 调用 charAt() 方法 
算 法 是 否 稳 定 | 原 地 排序 | 次数 的 增长 数量 级 (平均 长 度 为 w， 最 优势 领域 
大 长 度 为 W) 
运行 时 间 额外 空间 
字符 串 的 插入 排序 是 是 ”| N 到 信之 间 1 
通用 排序 算法 ， 特 别 
快速 排序 否 是 Nlog'N logN 适合 用 于 空间 不 足 的 
情况 
归并 排序 是 否 Nlog'N N 稳定 的 通用 排序 算法 
三 向 快速 排序 否 是 N 到 MogV 之 间 logN 大 量 重复 键 
低位 优先 的 字符 串 排序 是 否 NW N 较 短 的 定 长 字符 串 
高 位 优先 的 字符 串 排序 是 否 NN 到 Nw 之 间 N+WR 随机 字符 串 
通用 排序 算法 ， 特 别 
三 向 字符 串 快 速 排序 否 是 N 到 Nw 之 间 W+logN 适合 用 于 含有 较 长 公 
共 前 绷 的 字符 串 
和 第 2 章 一 样 ， 根 据 具体 的 算法 和 数据 将 这 些 增长 数量 级 乘 以 适当 的 常数 就 可 以 估计 出 程序 所 


需 的 运行 时 间 。 
我 们 已 经 看 到 过 许多 示例 和 练习 中 的 许多 示例 ， 不 同 的 情况 需要 用 不 同 的 算法 和 参数 来 处 理 。 


在 专家 的 指导 下 ( 现在 也 许 就 是 你 ) ， 在 特定 的 场景 下 算法 的 性 能 也 许 能 够 得 到 大 幅度 提高 。 724 


问 ”Java 系统 的 排序 使 用 了 这 些 方法 来 处 理 String 对 象 吗 ? 

答 没有， 但 Java 的 标准 实现 中 的 字符 串 比 较 非常 快 ， 它 使 得 标准 排序 的 性 能 与 本 节 中 讨论 的 这 些 算法 
不 相 上 下 。 

问 ”那么 ,我 只 需要 使 用 系统 排序 来 处 理 String 类 型 的 键 就 可 以 了 吗 ? 

答 在 Java 中 可 能 是 这 样 的 。 当 然 如 果 你 要 处 理 的 字符 串 非常 多 或 者 需要 一 个 极 快 的 算法 ， 就 可 能 需要 
用 char 数组 代替 String 对 象 并 使 用 基数 排序 算法 。 

问 表 5.1.2 中 的 logN 是 怎么 回 事 ? 

答 ”说 明 这 些 算法 中 的 大 多 数 比 较 都 是 在 含有 长 度 约 为 logN 的 公共 前 级 的 字符 串 之 间 进 行 的 。 最 近 的 一 
些 研究 通过 详细 的 数学 分 析 也 证 明了 随机 字符 串 也 满足 这 一 性 质 ( 参见 本 书 网 站 ) 。 725 


图 练 


5.1.1 实现 一 种 排序 算法 ， 首 先 统计 不 同 键 的 数量 ， 然 后 使 用 一 个 符号 表 来 实现 键 索引 计数 法 并 将 数组 
排序 。 (这 种 方法 不 适用 于 不 同 键 的 数量 很 大 的 情况 


o 
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字 符 


囊 


给 出 使 


CO to 


给 出 使 


co to th ai of th pa。 


低位 优先 的 字符 串 排 序 算法 处 理 下 面 这 些 键 的 轨迹 : 
th ai of th pa。 
高 位 优先 的 字符 串 排 序 算法 处 理 下 面 这 些 键 的 轨迹 : 


给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 
to th ai of th pa。 


no is th ti fo al go pe to 


no is th ti fo al go pe to 


看 这 些 键 的 轨迹 : no is th ti fo al go pe to co 


给 出 使 用 高 位 优先 的 字符 串 排 序 算 法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 


people to come to the 


给 出 使 用 三 向 字符 串 快 速 


aid of。 
排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 


people to come to the aid of。 


少 个 字符 ? 


第 一 次 遍历 所 有 元 素 时 ， 将 每 
并 合并 所 有 队列 得 到 一 个 完整 的 排序 结果 。 注 意 ， 


法 内 创建 。 


5.1.13 ”混合 排序 。 利 | 
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5.1.18 ”随机 小 数 键 。 编 写 一 个 静态 方法 randomDecimalKeys， 接 受 整 型 参数 N 和 W 


实验 


亚 线 ， 


] 一 个 Queue 对 象 的 数组 实现 键 索引 计数 法 。 

对 于 一 个 含有 N 个 键 a, aa, aaa, aaaa, .… 的 文件 ， 给 出 高 位 优先 的 字符 中 
序 所 检查 的 字符 数量 。 
实现 能 够 处 理 变 长 字符 呈 
5.1.10 要 将 个 定 长 字符 串 夺 


的 低位 优先 的 字符 串 排序 算法 。 
F 序 (长度 均 为 灰 ) ， 在 最 坏 情 况 下 三 向 字符 串 快 速 排序 总 共 需 要 检查 多 


字母 表 。 实 现 5.0.2 节 给 出 的 Alphabet 类 的 API 并 用 它 
和 高 位 优先 的 字符 串 排序 算法 。 
标准 的 高 位 优先 
速 排 序 能 够 避免 产生 大 量 空子 数组 的 特点 处 型 
各 


非 序 。 编 写 一 个 方法 ,使 用 


三 向 字符 


行 低位 优先 的 排序 ， 第 二 遍 进行 插入 排序 。 


有 结 点 〈 返 回 


定 的 或 者 提供 一 个 反例 。 


6 是 


排序 和 三 向 字符 串 快速 排 


队列 排序 。 按 照 以 下 方法 使 用 队列 实现 高 位 优先 的 字符 串 排 序 : 为 每 个 盒 
个 元 素 根据 首 字母 插入 到 适当 的 队列 中 。 然 后 ， 将 每 个 子 列 表 排序 


在 这 种 方法 


链表 排序 。 编 写 一 个 排序 算法 ， 接 受 一 条 以 String 为 键 值 参数 的 结 点 链 对 
一 个 指向 键 值 最 小 的 结 点 的 指针 ) 。 使 用 三 向 字符 串 快速 排序 。 
原 地 键 索 引 计数 法 。 实 现 一 个 仅 使 用 常数 级 别 的 额外 空间 的 键 索 引 计 数 法 。 证 明 你 的 实现 是 稳 


个 字符 串 的 数组 ， 每 个 字符 串 都 是 一 个 含有 W 位 数 的 小 数 。 


GD 参见 老式 卡片 打 孔 排序 机 。 一 一 译 者 注 


“设置 一 个 队列 。 在 


P count[] 数组 不 需要 在 递归 方 


实现 能 够 处 理 任意 字母 表 的 低位 优先 的 


的 字符 串 排序 的 多 向 切 分 优势 处 理 大 型 数组 ， 利 用 三 向 字符 串 快 


T 


[edl\ 


tm 


小 型 数组 。 研 究 这 种 想法 的 可 行 性 。 
快速 排序 处 理 以 整 型 数组 作为 键 的 情况 。 
生 排序 。 编 写 一 个 处 理 int 值 的 排序 算法 ,遍历 数组 两 闹 ， 第 一 遍 根 据 所 有 键 的 高 16 位 进 


新 按 顺 序 排列 所 
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5.1.19 随机 的 加 利 福 尼 亚 州 车 牌号 。 编 写 一 个 静态 方法 randomP1atesCA， 接 受 一 个 整 型 参数 N 并 返回 
一 个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 是 与 本 节 的 示例 类 似 的 加 利 福 尼 亚 州 的 车 牌号 。 

5.1.20 随机 定 长 单词 。 编 写 一 个 静态 方法 randomFixedLengthwords， 接 受 整 型 参数 N 和 W 并 返回 一 
个 含有 NN 个 字符 串 的 数组 ， 每 个 字符 串 都 基于 英文 字母 表 且 长 度 为 W。 

5.1.21 随机 元 素 。 写 一 个 静态 方法 randomItems， 接受 整 型 参数 N 并 返回 一 个 含有 N 个 字符 串 的 数组 ， 
每 个 字符 串 的 长 度 均 在 15 到 30 之 间 且 由 三 个 部 分 组 成 : 第 一 个 部 分 含有 4 个 字符 ,来 自 于 10 
个 固定 的 字符 串 ; 第 二 个 部 分 含有 10 个 字符 ， 来自 于 50 个 固定 的 字符 串 ; 第 三 个 部 分 含有 1 
个 字符 ,来 自 于 2 个 固定 的 字符 串 ; 第 四 个 部 分 长 15 个 字 节 ， 值 为 长 度 在 4 到 15 之 间 且 向 左 
对 齐 的 随机 字符 串 。 

5.1.22 运行 时 间 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排 序 与 三 向 字符 串 快速 排序 的 运行 时 间 。 
对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

5.1.23 ”数组 访问 。 使 用 多 种 键 生 成 器 比较 高 位 优先 的 字符 串 排 序 与 三 向 字符 串 快 速 排序 的 数组 访问 次 
数 。 对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排 序 算法 。 

5.1.24 被 访问 的 最 靠 右 的 字符 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排 序 与 三 向 字符 串 快 速 排序 
能 够 访问 到 的 最 靠 右 的 字符 的 位 置 。 728 
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和 排序 一 样 , 我 们 也 可 以 利用 字符 串 的 性 质 开发 比 第 3 章 中 介绍 的 通用 算法 更 有 效 的 查找 算法 ， 
以 便 用 于 以 字符 串 作为 被 查找 的 键 的 一 般 应 用 程序 。 
具体 来 说 ， 本 节 中 所 讨论 的 算法 在 一 般 应 用 场景 中 ( 甚至 对 于 巨型 的 符号 表 ) 都 能 够 取得 以 下 
性 能 : 
口 查找 命中 所 需 的 时 间 与 被 查找 的 键 的 长 度 成 正比 ; 
口 查找 未 命中 只 需 检 查 若 干 个 字符 。 

仔细 思考 过 后 你 会 发 现 ， 这 样 的 性 能 是 相当 惊人 的 。 它 们 是 算法 研究 的 最 高 成 就 之 一 ， 也 是 建 
成 现今 能 够 便捷 、 快 速 地 访问 海量 信息 所 依赖 的 基础 设施 的 重要 因素 。 更 重要 的 是 ， 我 们 可 以 扩展 
符号 表 的 API， 添 加 基于 字符 的 用 于 处 理 字 符 串 类 型 的 键 的 操作 ( 但 不 必 为 所 有 Comparable 类 型 
的 键 都 添加 类 似 操 作 ) 。 它 们 在 实际 应 用 中 非常 强大 并 实用 ， 如 表 5.2.1 所 示 。 


表 5.2.1 以 字符 串 为 键 的 符号 表 的 API 


public class StringST<Value> 


stringST() 创建 一 个 符号 表 
void put(String key, Value val) 句 表 中 插入 键 值 对 ( 如 果 值 为 nu11 则 删除 键 key ) 
Value get(String key) 键 key 所 对 应 的 值 ( 如果 键 不 存在 则 返回 nu11 ) 
void delete(String key) | 除 键 key ( 和 它 的 值 ) 
boolean contains(String key) 表 中 是 否 保存 着 key 的 值 
boolean isEmpty() 壬 号 表 是 否 为 空 
String longestPrefixOf(String s) s 的 前 绿 中 最 长 的 键 
Iterable<String> keysWithPrefix(String s) 所 有 以 s 为 前 级 的 键 
Iterable<String> keysThatMatch(String s) 所 有 和 s 匹配 的 键 ( 其中“.” 能 够 匹配 任意 字符 ) 
729 int size() 键 值 对 的 数量 
0 Iterable<String> keysQO 符号 表 中 的 所 有 键 


这 份 API 与 第 3 章 中 所 介绍 的 符号 表 API 有 以 下 不 同 : 
口 将 泛 型 的 Key 的 类 型 换 成 了 具体 的 类 型 String; 
口 添加 了 3 个 方法 : longestPrefix0f()、keysWithPrefix() 和 keysThatMatch()。 
本 节 仍 然 遵守 第 3 章 中 实现 符号 表 时 的 几 个 基本 约定 (不 接受 重复 键 或 空 键 ， 值 不 能 为 空 ) 。 
从 对 字符 串 的 排序 算法 中 可 以 看 到 ， 指 定 字符 串 的 字母 表 常 常 是 十 分 重要 的 。 对 小 型 字母 表 的 简 
单 而 高 效 的 实现 不 适用 于 大 型 字母 表 ， 这 是 因为 后 者 消耗 的 空间 太 多 。 在 这 种 情况 下 ， 应 该 添加 一 个 
构造 函数 ， 人 允许 用 例 指 定 所 使 用 的 字母 表 。 我 们 会 在 本 节 稍 后 讨论 这 个 构造 郴 数 的 实现 ， 但 目前 暂时 
没有 在 API 中 列 出 它 ， 因 为 要 将 精力 集中 在 字符 串 类 型 的 键 上 。 
下 面 我 们 用 she sells sea shells by the shore 这 几 个 键 作为 示例 描述 以 下 3 个 新 方法 。 
口 longestPrefix0f() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 该 字符 串 的 前 级 中 最 长 的 键 。 对 
于 以 上 所 有 和 键 ，1longestPrefix0f("she11") 的 结果 是 she，1ongestPrefixOf("she1- 
1sort") 的 结果 是 she11s。 
口 keysWithPrefix() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 所 有 以 该 字符 串 作 为 前 级 的 键 。 对 
于 以 上 所 有 键 ,keysWithPrefix("she") 的 结果 是 she 和 shells,keysWithPrefix ("se") 
的 结果 是 sells 和 sea。 
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口 keysThatMatch() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 所 有 和 该 字符 串 匹配 的 键 ， 其 中 参 
数字 符 串 中 的 点 (“.”) 可 以 匹配 任何 字符 。 对 于 以 上 所 有 键 ，keysThatMatch(".he") 
的 结果 是 she 和 the，keysThatMatch("s..") 的 结果 是 she 和 sea。 
在 见 过 这 些 基 本 的 符号 表 方 法 后 ， 我 们 将 详细 讨论 这 些 操 作 的 实现 和 应 用 。 这 些 特 别 的 操作 是 
字符 串 类 型 的 键 所 可 能 进行 的 操作 中 的 代表 操作 ， 我 们 将 会 在 练习 中 讨论 其 他 可 能 的 操作 。 
为 了 突出 中 心思 想 ， 本 节 的 重点 是 put()、get() 和 新 增 的 几 个 方法 ; ( 和 第 3 章 一 样 ) 使 用 
了 contains() 和 isEmpty() 的 默认 实现 ， 并 将 size() 和 delete() 的 实现 留 作 练习 。 因 为 字符 
串 都 是 Comparable 的 ， 所 以 可 以 在 API 中 包含 第 3 章 有 序 符号 表 API 中 的 各 种 有 序 性 操作 ( 非常 
值得 这 样 做 ) 。 我 们 将 它们 的 实现 ( 大 多 都 很 简单 ) 留 作 练习 并 放 在 了 本 书 的 网 站 上 。 
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5.2.1 单词 查找 树 
本 节 中 ， 我 们 要 学 习 一 种 叫做 单词 查找 树 的 数据 结构 。 它 由 字符 串 键 中 的 所 有 字符 构造 而 成 ， 
允许 使 用 被 查找 键 中 的 字符 进行 查找 。 它 的 英文 单词 trie 来自 于 E.Fredkin 在 1960 年 玩 的 一 个 文字 
游戏 ， 因 为 这 个 数据 结构 的 作用 是 取出 (retrieval ) 数据 ， 但 发 音 为 try 是 为 了 避免 与 tree 相 混 淆 。 
我 们 首先 会 描述 单词 查找 树 的 基本 性 质 ， 包 括 查 找 和 插入 算法 ， 然 后 详细 学 习 它 的 数据 表示 方法 和 
Java 实现 。 
5.2.1.1 基本 性 质 
和 各 种 查找 树 一 样 ， 单 词 查找 树 也 是 由 链接 的 结 点 所 组 成 的 数据 结构 ， 这 些 链 接 可 能 为 空 ， 也 
可 能 指向 其 他 结 点 。 每 个 结 点 都 只 可 能 有 一 个 


根 结 点 
台 疝 它 的 结 丘 为 它 的 父 站 点 (只 有 一 个 疆 该 链接 所 指向 的 子 
指向 它 的 结 点 ， 称 为 它 的 父 结 点 (只 有 一 个 结 wa 单词 查找 树 包含 所 
点 除外 , 即 根 结 点 , 没有 任何 结 点 指向 根 结 点 ) 。 有 以 s 开 头 的 刍 
、 该 链接 所 指向 的 子 
每 个 结 点 都 含有 有 条 链接 ， 其 中 有 为 字母 表 的 的 二 
有 以 she 开 头 的 键 


大 小 。 单 词 查找 树 一 般 都 含有 大 量 的 空 链接 ， 


he 关联 的 值 
因此 在 绘制 一 棵 单词 查找 树 时 一 般 会 忽略 空 链 在 全 的 最 后 一 个 
接 。 尽 管 链接 指向 的 是 结 点 ， 但 是 也 可 以 看 作 (©)5 字符 所 对 应 的 结 点 中 
链接 指向 的 是 另 一 棵 单词 查找 树 ， 它 的 根 结 点 引信 

就 是 被 指向 的 结 点 。 每 条 链接 都 对 应 着 一 个 字 ees 2 

A N= fe bb 上 已 ] J 

符 一 因为 每 条 链接 都 只 能 指向 一 个 结 点 ， 所 jg Aw ells 

以 可 以 用 链接 所 对 应 的 字符 标记 被 指向 的 结 点 所 对 应 的 字符 标记 结 点 Shells 3 

( 根 结 点 除外 ， 因 为 没有 链接 指向 它 ) 。 每 个 

符号 表 中 的 某 个 键 所 关联 的 值 。 具 体 来 说 ， 我 

门将 每 个 狠 、 他 在 该 键 的 最 后 一 个 字母 所 对 应 的 结 点 中 。 我 们 应 该 记 住 非 浓 JJ 一 点 : 
们 将 每 个 键 所 关联 的 值 保存 在 该 键 的 最 后 一 个 字母 所 对 应 的 结 点 中 ,我们 应 该 记 住 非常 重要 的 一 点 


值 为 空 的 结 点 在 符号 表 中 没有 对 应 的 键 ， 它 们 的 存在 是 为 了 简化 单词 查找 树 中 的 查找 操作 。 一 棵 单 
词 查找 树 的 例子 如 图 5.2.1 所 示 。 
5.2.1.2 ”单词 查找 树 中 的 查找 操作 

在 单词 查找 树 中 查找 给 定 字 符 串 键 所 对 应 的 值 是 一 个 很 简单 的 过 程 ， 它 是 以 被 查找 的 键 中 的 字 
符 为 导向 的 。 单词 查 找 树 中 的 每 个 结 点 都 包含 了 下 一 个 可 能 出 现 的 所 有 字符 的 链接 。 从 根 结 点 开始 ， 
首先 经 过 的 是 键 的 首 字母 所 对 应 的 链接 ; 在 下 一 个 结 点 中 沿 着 第 二 个 字符 所 对 应 的 链接 继续 前 进 ; 
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在 第 二 个 结 点 中 沿 着 第 三 个 字符 所 对 应 的 链接 向 前 ， 如 此 这 般 直 到 到 达 键 的 最 后 一 个 字母 所 指向 的 
结 点 或 是 遇 到 了 一 条 空 链接 。 这 时 可 能 会 出 现 以 下 3 种 情况 ( 示例 请 见 图 5.2.2 ) 。 

口 键 的 尾 字符 所 对 应 的 结 点 中 的 值 非 空 4 如 图 5.2.2 中 查找 shells 和 she 的 示例 ) 。 这 是 一 
次 命中 的 查找 一 一 键 所 对 应 的 值 就 是 键 的 尾 字 符 所 对 应 的 结 点 中 保存 的 值 。 

口 键 的 尾 字 符 所 对 应 的 结 点 中 的 值 为 空 ( 如 图 5.2.2 中 查找 she11 的 示例 ) 。 这 是 一 次 未 命中 
的 查找 一 一 符号 表 中 不 存在 被 查找 的 键 。 

口 查找 结束 于 一 条 空 链接 ( 如 图 5.2.2 中 查找 shore 的 示例 ) 。 这 也 是 一 次 未 命中 的 查找 。 


命中 的 查找 未 命中 的 查找 
get("shells") O getC"shel1")O) 
(5 (CS 
\h) \h) 
(©) (e) 
0 0 
0 
3 
返回 键 的 尾 字符 对 应 的 键 的 尾 字符 对 应 的 结 点 中 
结 点 中 所 保存 的 值 所 保存 的 值 为 空 ， 返 回 空 
get("she") O get("shore") 
(CS 
\h) 
(e)0 
查找 可 能 终止 ”一 一 
三 找 可 能 各 
于 一 个 内 部 结 点 没有 与 o 对 应 的 


链接 ， 返 回 空 


图 5.2.2 单词 查找 树 的 查找 示例 


733 在 所 有 的 情况 中 , 执行 查找 的 方式 就 是 在 单词 查找 树 中 从 根 结 点 开始 检查 某 条 路 径 上 的 所 有 结 点 。 


5.2.1.3 ”单词 查找 树 中 的 插入 操作 
和 二 又 查找 树 一 样 ， 在 插入 之 前 要 进行 一 次 查找 : 在 单词 查找 树 中 意味 着 沿 着 被 查找 的 键 的 
所 有 字符 到 达 树 中 表示 尾 字 符 的 结 点 或 者 一 个 空 链接 。 此 时 可 能 会 出 现 以 下 两 种 情况 。 
口 在 到 达 键 的 尾 字符 之 前 就 遇 到 了 一 个 空 链接 。 在 这 种 情况 下 ， 单 词 查找 树 中 不 存在 与 键 的 尾 
字符 对 应 的 结 点 ， 因 此 需要 为 键 中 还 未 被 检查 的 每 个 字符 创建 一 个 对 应 的 结 点 并 将 键 的 值 保 
存 到 最 后 一 个 字符 的 结 点 中 。 
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口 在 遇 到 空 链接 之 前 就 到 达 了 键 的 尾 字 符 。 在 这 种 情况 下 ， 和 关联 数组 一 样 ， 将 该 结 点 的 值 设 


为 键 所 对 应 的 值 (无论 该 值 是 否 为 空 ) 。 

在 所 有 情况 下 ， 对 于 键 中 的 每 

在 使 用 第 3 章 中 的 标准 索引 用 例 处 理 输入 she sel11 
的 单词 查找 树 如 图 5.2.3 所 示 。 


个 字符 ， 我 们 或 者 进行 检查 ， 或 者 在 树 中 创建 一 个 对 应 的 结 点 。 


s sea shells by the sea shore 时 所 构造 


键 值 键 值 
she 0 〇 一 ow by 4 () 
(Ss) (b) 
键 的 值 存在 于 尾 字 
中 2 母 所 对 应 的 结 点 中 WW 
(e)0 
sells 1 
the 5 () 
键 的 每 个 字母 都 玉 (© 
对 应 着 一 个 结 点 
(h) 
i (e)5 
Sea 6 
键 就 是 由 从 根 结 
到 值 所 在 的 结 7 (Ss) 
一 系列 字符 组 成 的 £ 
shells 3 人) 和 键 的 尾 sp 
应 的 结 点 存在 
(5) 重 置 它 的 值 
th) 
(e) shore 7 使 
Q) 
Q) 
和 各 的 末 必 部分 字符 对 应 一 3 @ 
的 结 点 不 存在 ， 
创建 这 些 结 点 并 将 信保 存 (nD) 
在 最 后 一 个 结 点 中 (7 


5.2.3 ”标准 索引 用 例 中 各 


词 查找 树 的 构造 轨迹 
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5.2.1.4” 结 点 的 表示 
在 本 节 开 头 提 到 过 , 我 们 为 单词 查找 树 所 绘 出 的 图 像 和 在 程序 中 构造 的 数据 结构 并 不 完全 一 致 ， 
因为 我 们 没有 画 出 空 链接 。 将 空 链接 考虑 进来 将 会 突出 单词 查找 树 的 以 下 重要 性 质 : 


4 中 的 单词 查找 树 中 ， 所 有 的 键 均 


口 每 个 结 点 都 含有 RR 个 链接 ， 对 应 着 每 个 可 能 出 现 的 字符 ; 
口 字符 和 键 均 隐 式 地 保存 在 数据 结构 中 。 
例如 ， 在 图 5.2. 


由 小 写字 母 组 成 ， 每 个 结 点 都 含有 一 个 值 和 


26 个 链接 。 第 一 条 链接 指向 的 子 单词 查找 树 中 的 所 有 键 的 首 字母 都 是 a， 第 二 条 链接 指向 的 子 单词 
查找 树 中 的 所 有 键 的 首 字母 都 是 b， 等 等 。 


链接 的 索引 隐 式 地 
定义 了 对 应 的 字符 


0 CIT 


| 


每 个 结 点 都 含有 一 
个 链接 数组 和 一 个 值 


下 


到 5.2.4 单词 查找 树 的 表示 (R=26) 


在 单词 查找 树 中 ， 键 是 由 从 根 结 点 到 含有 非 空 值 的 结 点 的 路 径 所 隐 式 表示 的 。 例 如 ， 在 单词 查 
找 树 中 ， 字 符 串 sea 所 关联 的 值 是 2， 因 为 根 结 点 中 的 第 19 条 链接 ( 指向 由 所 有 以 s 开头 的 键 组 
成 的 子 单词 查找 树 ) 非 空 ， 下 一 个 结 点 中 的 第 5 条 链接 ( 指向 由 所 有 以 se 开头 的 键 组 成 的 子 单词 
查找 树 ) 非 空 ， 第 三 个 结 点 中 的 第 1 条 链接 〈 指向 由 所 有 以 sea 开头 的 键 组 成 的 子 单词 查找 树 ) 的 


值 为 2。 数 据 结构 既 没有 保存 字符 中 


sea 也 没有 保存 字符 s、e 和 a。 事 实 上 ， 数 据 结构 不 会 存储 任 


何 字符 串 或 字符 ， 它 保存 了 链接 数组 和 值 。 因 为 参数 R 的 作用 的 重要 性 ， 所 以 将 基于 含有 RR 个 字符 
的 字母 表 的 单词 查找 树 称 为 R 向 单词 查找 树 。 

有 了 这 些 预备 知识 之 后 ,算法 5.4 实现 的 符号 表 TrieST 就 很 容易 理解 了 。 它 也 使 用 了 类 似 于 
第 3 章 介绍 的 查找 树 使 用 的 递归 方法 。 它 的 私有 Node 类 用 实例 变量 val 保存 键 相 关联 的 值 并 用 
数组 next[] 保存 所 有 指向 其 他 Node 对 象 的 引用 。 这 


些 递 归 方法 的 实现 非常 简洁 ， 值 得 仔细 研究 。 下 面 ， 


我 们 将 讨论 接受 一 个 Alphabet 对 象 作为 参数 的 构造 


函 数 和 size()、 
keyswWithpPrefi 


keys() 、1ongestpPrefixoOf() 、 
x()、keysThatMatch() 和 


delete() 方法 的 实现 。 理 解 这 些 递归 方法 也 并 不 困 
难 ， 只 是 每 个 方法 都 会 比 前 一 个 稍 加 复杂 。 


5.2.1.5 大 小 


和 第 3 章 中 的 二 又 查找 树 一 样 ，sizeQ 方法 的 实 
现 有 以 下 3 种 显而易见 的 选择 。 


口 即时 实现 : 


一 个 实例 变量 V 保存 键 的 数量 。 


public int size() 
{ return size(root); } 


private int size(Node x) 
{ 


if (x == null) return 0; 


mi ems Me 

if (x.val != null) cnt++; 

for (char € = 0; CC < R; C++) 
chnt += size(next[c]); 


metumneeniks 


单词 查找 树 的 延 时 递归 方法 sizeQ 〇 
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口 更 加 即时 的 实现 : 用 结 点 的 实例 变量 保存 子 单词 查找 树 中 键 的 数量 ， 在 递归 的 put CQ) 和 
delete() 方法 调用 之 后 更 新 它们 。 
口 延 时 递归 实现 : 如 上 页 框 注 “ 单 词 查找 树 的 延 时 递归 方法 sizeG 〇 ”所 示 。 它 会 遍历 单词 查 
找 树 中 的 所 有 结 点 并 记录 非 空 值 结 点 的 总 数 。 
和 二 又 查找 树 一 样 ， 延 时 实现 很 有 指导 意义 但 是 应 该 尽量 避免 ， 因 为 它 会 给 用 例 造 成 性 能 上 的 
问题 。 我 们 会 在 练习 中 讨论 它 的 即时 实现 。 736 


算法 5.4 基于 单词 查找 树 的 符号 表 


public class TrieST<Value> 
{ 
private static int R = 256; // 基数 
private Node root; // 单词 查找 树 的 根 结 点 


private static class Node 
{ 
private Object val; 
private Node[] next = new Node[R]; 


} 


public Value get(String key) 

{ 
Node x = get(root, key, 0); 
if (x == null1) return null; 
return (Value) x.val; 


} 


private Node get(Node x, String key, int d) 
 // 返回 以 X 作 为 根 结 点 的 子 单词 查找 树 中 与 Key 相 关联 的 值 
if (x == null) return null; 
if (d == key.length()) return x; 
char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 子 单词 查找 树 
return get(x.next[c], key, d+1); 
} 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); 了 


private Node put(Node x, String key, Value val, int d) 

{ // 如 果 Key 存 在 于 以 X 为 根 结 点 的 子 单词 查找 树 中 则 更 新 与 它 相关 联 的 值 
if (x == null1) x = new NodeQO; 
if (d == key.lengthO)) { x.val = val; return x; } 
char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 子 单词 查找 树 
x.next[c] = put(x.next[c], key, val, d+1); 
return x; 


} 
这 份 代码 使 用 向 单词 查找 树 实现 了 符号 表 。 我 们 会 在 下 面 的 几 页 中 讨论 表 5.2.1 中 字符 串 符号 


大 
为 Java 不 支持 泛 型 数组 ， 所 以 Node 中 的 值 的 类 型 必须 是 0bject， 可 以 在 get() 中 将 值 的 类 型 转换 为 
Value。 737 
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5.2.1.6 ”查找 所 有 键 

因为 字符 和 键 是 被 隐 式 地 表示 在 单词 查找 树 中 ， 所 以 使 用 例 能 够 遍历 符号 表 的 所 有 键 就 变 得 有 
些 困难 。 在 二 叉 查 找 树 中 ,我 们 将 所 有 字符 串 键 保存 在 一 个 队列 ( Queue ) 里 。 但 对 于 单词 查找 树 ， 
不 仅 要 能 够 在 数据 结构 中 找到 这 些 键 ， 还 需要 显 式 地 表示 它们 。 我 们 用 一 个 类 似 于 sizeQ 的 私有 
递归 方法 collect() 来 完成 这 个 任务 ， 它 维护 了 一 个 字符 串 用 来 保存 从 根 结 点 出 发 的 路 径 上 的 一 
系列 字符 。 每 当 我 们 在 collectQ 调用 中 访问 一 个 结 点 时 ， 方 法 的 第 一 个 参数 就 是 该 结 点 ， 第 二 
个 参数 则 是 和 该 结 点 相关 联 的 字符 串 ( 从 根 结 点 到 该 结 点 的 路 径 上 的 所 有 字符 ) 。 在 访问 一 个 结 点 
时 ， 如 果 它 的 值 非 空 ， 我 们 就 将 和 它 相 关联 的 字符 串 加 入 队列 之 中 ,然后 ( 递归 地 ) 访问 它 的 链接 
数组 所 指向 的 所 有 可 能 的 字符 结 点 。 在 每 次 调用 之 前 ， 都 将 链接 对 应 的 字符 附加 到 当前 键 的 末尾 作 
为 调用 的 参数 键 。 用 这 个 collectQ 方法 为 API 中 的 keys QO) 和 keysWwithPrefix() 方法 收集 符 
号 表 中 所 有 的 键 。 要 实现 keys 0) 方法 ， 可 以 以 空 字符 串 作 为 参数 调用 keysWithPrefix(0) 方法 。 
要 实现 keysWithPrefixQ 方法 ， 可 以 先 调 用 get 0) 找 出 给 定 前 级 所 对 应 的 单词 查找 树 ( 如果 不 
存在 则 返回 nu11) ， 再 使 用 collect0 方法 完成 任务 。 图 5.2.5 显示 了 collect0 方法 (或 者 说 
keyswWithPrefix("" 调用 ) 在 一 棵 单词 查找 树 中 的 轨迹 ， 它 给 出 了 每 次 调用 co11ect 0) 方法 时 第 
二 个 参数 的 值 和 队列 的 内 容 。 图 5.2.6 显示 了 keysWithPrefix("sh") 的 运行 过 程 。 


public Iterable<String> keysO) keysWithPprefix(""); 
{ return keysWithPrefix(""); 了 
键 9 
public Iterable<String> b 
keysWithPrefix(CString pre) by by 
{ 
Queue<String> q = new Queue<String>() ; 人 sea 
collia<eosE 人 OO Dre oy re sel 
Rektunnnos sell 
} Se sells 
3 
private void collect(Node x, String pre, 
Queue<String> 9q) sha11 
二 shells shells 
if (x == null) returns sho 
if (x.val != null) q.enqueue(pre); shor 
formCchan ee 0 Rect hore ohone 
collect(x.next[c], pre + c, qd); hh 
上 the the 
收集 一 棵 单词 查找 树 中 的 所 有 键 图 5.2.5 收集 一 棵 单词 查找 树 中 的 所 有 键 的 轨迹 
keysWithPrefix("sh"); 
键 9 
sh 
phe she 
she 
YS .sen 
shells shells 
Dol Ce)0No) >ho 
shor 
找 出 和 所 有 以 "sh" QD) C) shore shore 
ed GD @@ 7 收集 该 子 单间 查 
We (S)3 找 树 中 的 所 有 键 


738 图 5.2.6 ”单词 查找 树 中 的 前 绥 匹 配 
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5.2.1.7 ”通配符 匹配 

我 们 可 以 用 一 个 类 似 的 过 程 实现 keysThatMatch() ， 但 需要 为 co11ect() 方法 添加 一 个 参数 
来 指定 匹配 的 模式 。 如 果 模 式 中 含有 通配符 ， 就 需要 用 递归 调用 处理 所 有 的 链接 ， 否 则 就 只 需要 处 
理 模 式 中 指定 字符 的 链接 即 可 ， 如 下 方 的 框 注 所 示 。 你 还 可 以 注意 到 ， 这 里 不 需要 考虑 长 度 超过 模 
式 字符 串 的 键 。 


public Iterable<String> keysThatMatch(String pat) 
二 
Queue<String> q = new Queue<String>() ; 
collleckrootea Dac 
return q; 


private void collect(Node x, String pre, String pat, Queue<String> q) 
int d = pre.lengthQO; 
if (x == null) return; 
if (d == pat.lengthO) && x.val != null) q.enqueue(pre); 
if (d == pat.lengthO)) return; 


char next = pat.charAt(d); 
for (char c = 0; c < R; c++) 
if (next == '.' || next == C) 
collect(x.next[c], pre + c¢, pat, q); 


单词 查找 树 中 的 通配符 匹配 


5.2.1.8 ”最 长 前 绥 

为 了 找到 给 定 字符 串 的 最 长 键 前 级 ， 就 需要 使 用 一 个 类 似 于 get() 的 递归 方法 。 它 会 记录 查找 
路 径 上 所 找到 的 最 长 键 的 长 度 (将 它 作 为 递归 方法 的 参数 在 遇 到 值 非 空 的 结 点 时 更 新 它 ) 。 查 找 会 
在 被 查找 的 字符 串 结束 或 是 遇 到 空 链接 时 终止 ， 请 见 图 5.2.7。 


public String longestPrefixOf(String s) 
{ 
int length = search(root, s, 0, 0); 
return s.substring(0, length); 
D 


private int search(Node x, String s, int d, int length) 
{ 

if (x == null) return length; 

fxeval mo Nenagh ds 

if (d == s.length()) return length; 

chare = sgcharAt(de 

return search(x.next[c], s, d+1, length); 


对 给 定 字 符 串 的 最 长 前 级 进行 匹配 
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5.2.1.9 ”删除 操作 he 
从 一 棵 单词 查找 树 中 删 去 一 个 键 值 对 的 第 一 步 是 ， 找 到 键 @) 
所 对 应 的 结 点 并 将 它 的 值 设 为 空 (nu11) 。 如 果 该 结 点 含有 一 人 
个 非 空 的 链接 指向 某 个 子 结 点 ， 那 么 就 不 需要 再 进行 其 他 操作 0 
了 。 如 果 它 的 所 有 链接 均 为 空 ， 那 就 需要 从 数据 结构 中 删 去 这 
个 结 点 。 如 果 删 去 它 使 得 它 的 父 结 点 的 所 有 链接 也 均 为 空 ， 就 的 值 非 空 ， 碍 
需要 继续 删除 它 的 父 结 点 ， 依 此 类 推 。 如 下 面 框 注 中 的 实现 所 人 
示 ， 根 据 标准 递归 流程 ， 这 项 操作 所 需 的 代码 极 少 : 在 递归 市 
除了 某 个 结 点 x 之 后 ， 如 果 该 结 点 的 值 和 所 有 的 链接 均 为 空 则 “she11C) 
返回 nu11， 否 则 返回 x， 请 见 图 5.2.8。 CS) 
public void delete(String key) (e)0 ee 
{ root = delete(root, key, 0); +} 的 值 为 空 ， 查 
0 天 这 ， 浊 加 
private Node delete(Node x, String key, int d) 阅 术 ， 这 旧 
Q) “she” (路 径 
TFICXEEE nl return no 上 最 近 的 一 个 
if (d == key.lengthO) 键 ) 
x.val = null; "shellsort" 
else 
: () 
char c = key.charAt(d); (S) 
x.next[c] = delete(x.next[c], key, d+1); 
} th) 
nf xvalll= mu returnmx (e)0 
for (charcC = 0; C < R; ct++) (WD 查找 在 空 链 接 
if (x.next[c] != nul1) return x; G) 处 结束 ， 返 回 
return null; "shells" 
} (3 _ (路 径 上 最 近 
的 一 个 键 ) 
从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) "chelters" 
5.2.1.10 ”字母 表 0 
和 以 前 一 样 ， 算 法 54 处 理 的 是 Java 的 String 类 型 的 键 ， (9 
但 将 它 修改 为 处 理由 任意 字母 表 得 到 的 键 也 很 容易 。 0 
口 实现 一 个 构造 函数 , 接受 一 个 Alphabet 对 象 作为 参数 ， (6)0 。 处 结束 ,返回 
将 一 个 Alphabet 类 型 的 实例 变量 设 为 该 参数 的 值 并 (Da she (hs 
径 上 最 近 的 一 


将 实例 变量 R 的 值 设 为 字母 表 中 字母 的 个 数 。 个 键 ) 
口 在 get() 和 put() 中 使 用 Alphabet 类 的 toIndex() 
方法 , 将 字符 串 中 的 字符 转化 为 0 到 R-1 之 间 的 索引 值 。 
口 使 用 Alphabet 类 的 toCharg 方法 , 将 0 到 R-1 之 间 的 
谣 引 信和 转化 为 字符 型 (char) 的 值 。gerO 和 putO 方法 图 527 了 2 方 
不 需要 进行 此 操作 ,但 它 在 keysG 〇 O 、keyswithPrefixO) 
和 keysThatMatchQ 方法 的 实现 中 很 重要 。 
经 过 这 些 修 改 ， 如 果 已 知 所 有 键 仅 来 自 于 一 个 小 型 的 字母 表 ， 那 可 以 节省 相当 大 的 空间 (在 每 个 
结 点 中 仅 使 用 R 条 链接 ) ， 代 价 是 字母 和 索引 相互 转化 所 需要 的 时 间 。 
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delete("shells"); 
了 如 
Q 忆 


Ch) 
(© 0 
(OD OD) 
将 值 
0 / 置 为 空 OO | 
G; | 非 空 值 ， 不 能 删 去 结 点 非 空 链接 ,不 能 删 去 结 点 
(返回 指向 结 点 的 链接 ) (返回 指向 结 点 的 链接 ) 


值 和 链接 均 为 空 ， 删 去 
结 点 (返回 一 个 空 链接 ) 


图 5.2.8 ”从 单词 查找 树 中 删除 一 个 键 《和 它 相关 联 的 值 ) 2 


我 们 已 经 考虑 过 的 代码 就 是 字符 串 符号 表 API 的 一 个 简洁 而 完整 的 实现 ， 它 适用 于 各 种 实际 
应 用 场景 。 本 节 的 练习 讨论 了 它 的 几 种 变化 和 扩展 。 下 面 我 们 要 讨论 单词 查找 树 的 基本 性 质 和 限 
制 条 件 。 


5.2.2 单词 查找 树 的 性 质 


和 以 前 一 样 ， 我 们 希望 知道 在 一 般 的 应 用 程序 中 使 用 单词 查找 树 所 需要 的 时 间 和 空间 。 单 词 查 
找 树 已 经 被 分 析 和 研究 得 很 透彻 了 ， 它 的 基本 性 质 也 比较 容易 理解 和 应 用 。 


命题 F。 单 词 查找 树 的 链表 结构 (形状 ) 和 键 的 插入 或 删除 顺序 无 关 : 对 于 任意 给 定 的 一 组 键 ， 
其 单词 查找 树 都 是 唯一 的 。 


证 明 。 由 数学 归纳 法 很 容易 通过 子 单词 查找 树 证 明 这 个 结论 。 


这 个 基本 的 结论 是 单词 查找 树 的 一 个 特殊 性 质 : 我 们 目前 已 经 学 过 的 所 有 其 他 结构 的 查找 树 的 
构造 都 不 仅 和 键 的 集合 有 关 ， 而 且 还 取决 于 这 些 键 的 搬 人 顺序 。 
5.2.2.1 最 坏 情 况 下 查找 和 插入 操作 的 时 间 界 限 

在 单词 查找 树 中 找到 给 定 键 的 值 要 花 多 长 时 间 ?” 对 于 二 又 查找 树 、 散 列表 和 第 3 章 中 所 介绍 的 
其 他 算法 ， 都 需要 使 用 数学 分 析 来 回答 这 个 问题 。 但 是 对 于 单词 查找 树 ， 这 个 问题 很 简单 。 


命题 G。 在 单词 查找 树 中 查找 一 个 键 或 是 插入 一 个 键 时 ， 访问 数组 的 次 数 最 多 为 键 的 长 度 加 1。 


证 明 。 由 代码 可 知 ，put() 和 get() 方法 的 递归 实现 都 带 有 一 个 参数 d。 它 的 初始 值 为 0， 每 
次 调用 时 都 会 如 1， 当 长 度 等 于 键 的 长 度 时 递归 调用 停止 。 


从 理论 角度 来 说 ,命题 G 意味 着 单词 查找 树 对 于 命中 的 查找 是 最 理想 的 一 一 我 们 不 能 奢望 查找 
所 需 的 时 间 比 与 被 查找 的 键 的 长 度 成 正比 更 好 。 无 论 使 用 的 是 什么 算法 和 数据 结构 ， 在 检查 完 要 查 
找 的 键 中 的 所 有 字符 之 前 都 是 无 法 判断 是 否 已 找到 该 键 。 从 实际 角度 来 说 ， 这 个 保证 也 很 重要 ， 因 
为 它 和 符号 表 中 键 的 数量 无 关 : 当 我 们 在 处 理 类 似 于 车 牌号 码 的 7 个 字符 的 键 时 ， 可 以 知道 查找 或 
插入 操作 最 多 只 需要 检查 8 个 结 点 ; 当 我 们 在 处 理 20 个 字符 的 数字 账号 时 ， 最 多 只 需要 检查 21 个 
结 点 就 可 以 完成 查找 或 插入 操作 。 
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5.2.2.2 ”查找 未 命中 的 预期 时 间 界 限 

假设 我 们 正在 单词 查找 树 中 查找 一 个 键 ， 发 现 根 结 点 中 与 被 查找 键 的 第 一 个 字符 所 对 应 的 链接 
为 空 。 此 时 只 检查 了 一 个 结 点 就 知道 了 该 键 不 存在 于 表 中 。 这 种 情况 是 很 常见 的 : 单词 查找 树 的 最 
重要 的 性 质 之 一 就 是 未 命中 的 查找 一 般 都 只 需要 检查 很 少 的 几 个 结 点 。 如 果 假 设 键 都 来 自 于 随机 字 
符 串 模型 ( 字母 表 中 R 个 不 同 字符 出 现 的 几率 均 相 同 ) ， 可 以 证 明 以 下 结论 。 


命题 H。 字 母 表 的 大 小 为 R， 在 一 棵 由 入 个 随机 刍 构 造 的 单词 查找 树 中 ， 未 命中 查找 平均 所 需 
检查 的 结 点 数量 为 ~logaN。 
简略 证 明 ( 写 给 熟悉 概率 分 析 的 读者 ) 。 所 有 的 入 个 键 都 与 一 个 随机 的 查找 键 的 前 t 个 字符 中 
至 少 有 一 个 字符 不 同 的 概率 为 (1-R')"。 用 1 减 去 它 即 可 得 到 单词 查找 树 中 至 少 有 一 个 键 和 被 查 
找 键 的 前 t 个 字符 都 相 匹 配 的 概率 。 也 就 是 说 ，1-(1-R') 的 查找 操作 至 少 需要 比较 t 个 字符 的 
概率 。 在 概率 分 析 中 ， 对 于 三 0,1.2…， 一 个 整数 随机 变量 大 于 上 的 概率 之 和 就 是 该 随机 变量 的 
平均 值 。 因 此 ， 查 找 的 平均 成 本 为 : 
1-(1-R ) +1-(1-R ) +t-R) + 

根据 基本 的 近似 公式 (1-1/x)*~e ， 查 找 的 平均 成 本 的 近似 函数 为 : 

l(a Wl EVR )+*t(1— eMNR’ ) 寺 … 


当 尽 远 小 于 时， 相对 应 的 约 InaN 项 的 值 非常 接近 于 1; 当 尽 远 大 于 六 时 ， 所 对 应 的 所 有 的 


项 的 值 均 极 为 接近 于 0; 当 尺 SN 时 ， 所 对 应 的 项 不 多 且 它 们 的 值 均 在 0 和 1 之 间 。 因 此 ， 它 
的 总 和 约 为 logrN。 
从 实际 角度 来 说 ,该 命题 说 明 的 最 重要 的 一 点 就 是 ， 查 找 未 命中 的 成 本 与 键 的 长 度 无 关 。 例 如 ， 


它 说 明 在 一 棵 由 100 万 个 随机 键 构造 出 的 单词 查找 树 中 ， 未 命中 的 查找 也 只 需要 检查 3~4 个 结 点 ， 
无 论 这 些 键 是 含有 7 个 数字 的 车 辆 牌照 还 是 20 个 数字 的 账号 。 虽 然 在 实际 应 用 中 真正 的 随机 键 是 不 
可 能 出 现 的 , 但 该 模型 能 够 描述 一 般 应 用 场景 中 单词 查找 树 算法 对 键 的 处 理 方式 , 上 述 猜想 是 合理 的 。 
和 实 上， 这 种 行为 方式 在 实际 应 用 中 十 分 常见 而 且 也 是 单词 查找 树 得 到 广泛 应 用 的 一 个 重要 原因 。 
5.2.2.3 ”空间 

一 棵 单词 查找 树 需 要 多 少 空 间 ? 回答 这 个 问题 (了解 可 用 的 空间 有 多 少 ) 是 有 效 使 用 单词 查找 
树 的 关键 。 


lhl 


命题 |。 一 棵 单词 查找 树 中 的 链接 总 数 在 RN 到 RNw 之 间 ， 其 中 w 为 键 的 平均 长 度 。 

证 明 。 在 单词 查找 树 中 ， 每 个 键 都 有 一 个 对 应 的 结 点 保存 着 它 关 联 的 值 ， 同 时 每 个 结 点 也 含有 
及 条 链接 ， 因 此 链接 总 数 至 少 有 RN 条。 如 果 所 有 的 键 的 首 字母 均 不 相同 ， 那 么 每 个 键 中 的 每 
个 字母 都 有 一 个 对 应 的 结 点 ， 因 此 链接 总 数 应 该 等 于 尺 乘 以 所 有 键 中 的 字符 总 数 ， 即 RNw。 


表 5.2.2 说 明了 我 们 所 讨论 的 一 些 典型 的 应 用 场景 所 需 的 空间 成 本 。 它 说 明了 单词 查找 树 中 的 
一 些 经 验 性 的 规律 。 

口 当 所 有 键 均 较 短 时 ， 链 接 的 总 数 接近 于 RN; 

口 当 所 有 键 均 较 长 时 ， 链 接 的 总 数 接近 于 RNw; 
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口 因此 ,缩小 R 能 够 节省 大 量 的 空间 。 
这 张 表 传递 出 的 另 一 条 更 加 微妙 的 信息 是 ， 在 实际 应 用 中 采用 单词 查找 树 之 前 了 解 将 要 被 插 人 
的 所 有 键 的 性 质 是 非常 重要 的 。 
表 5.2.2 典型 的 单词 查找 树 的 空间 需求 
100 万 个 键 所 构造 的 单词 查找 


应 ”用 典型 的 键 平均 长 度 w ”字母 表 大 小 R ， 。 

树 中 的 链接 总 数 

加 利 福 尼 亚 州 的 车 牌号 。 4PGC938 了 256 2 亿 5 千 6 百 万 
rE 256 40 亿 

数字 账号 02400019992993299111 20 1 2 亿 5 千 6 百 万 
URL www.cs.princeton.edu 28 256 40 亿 

文本 处 理 seashells 11 256 2 亿 5 千 6 百 万 

i ; 256 2 亿 5 千 6 百 万 
基因 组 数据 中 的 蛋白 质 《ACTGACTG 8 了 4 百 万 

5.2.2.4 ” 单 向 分 支 put("shells", 1); 


put("shellfish", 2); 


长 键 在 单词 查找 树 中 占用 了 大 量 空间 的 主要 原因 
是 ， 树 中 的 长 键 通常 都 有 一 条 长 长 的 “尾巴 ”， 其 中 每 标准 的 单词 查找 树 ” ”不 存在 单 向 分 支 的 情况 
个 结 点 都 只 含有 一 条 指向 下 一 个 结 点 的 链接 ( 因此 都 
含有 R-1 条 空 链接 ) 。 这 种 情况 并 不 难 纠正 《请 见 练 Sr 
习 5.2.11 和 图 5.2.9 ) 。 单 词 查找 树 的 内 部 也 可 能 存在 
单 向 的 分 支 。 例 如 ， 两 个 长 键 可 能 只 有 最 后 一 个 字符 
不 同 ,解决 这 种 情况 要 更 加 困难 一 些 ( 请 见 练习 5.2.12 )。 
这 些 修改 能 够 使 得 单词 查找 树 的 空间 消耗 比 已 经 讨论 
过 的 简单 实现 缩小 许多 ， 但 它们 对 于 实际 应 用 场景 基 
本 不 起 作用 。 下 面 我 们 将 学 习 降 低 单词 查找 树 的 空间 
消耗 的 男 一 种 方式 。 

我 们 的 底线 是 : 不 要 使 用 算法 5.4 处 理 来 自 于 大 
型 字母 表 的 大 量 长 键 。 它 所 构造 的 单词 查找 树 所 需要 
的 空间 与 和 所 有 键 的 字符 总 数 之 积 成 正比 。 但 是 ， 
如 果 你 能 够 负担 得 起 这 么 庞大 的 空间 ， 单 词 查 找 树 的 
性 能 是 无 可 匹敌 的 。 


内 部 的 单 向 分 支 


Ws 


外 部 的 单 向 分 支 


= 


5.2.3 三 向 单词 查找 树 图 5.2.9 ”消除 单词 查找 树 中 的 单 向 分 支 


为 了 避免 R 向 单词 查找 树 过 度 的 空间 消耗 ， 我们 现在 来 学 习 男 一 种 数据 的 表示 方法 : 三 向 单词 查 
找 树 (TST ) 。 在 三 向 单词 查找 树 中 ， 每 个 结 点 都 含有 一 个 字符 、 三 条 链接 和 一 个 值 。 这 三 条 链接 分 
别 对 应 着 当前 字母 小 于 、 等 于 和 大 于 结 点 字母 的 所 有 键 。 在 算法 5.4 的 R 向 单词 查找 树 中 ， 树 的 结 点 
含有 尺 条 链接 ， 每 个 非 空 链 接 的 索引 隐 式 地 表示 了 它 所 对 应 的 字符 。 在 等 价 的 三 向 单词 查找 树 中 ， 字 
符 是 显 式 地 保存 在 结 点 中 的 一 一 只 有 在 沿 着 中 间 链 接 前 进 时 才 会 根据 字符 找到 表 中 的 键 , 请 见 图 5.2.10。 
查找 与 插入 操作 

用 三 向 单词 查找 树 实现 符号 表 API 中 的 查找 和 插入 操作 很 简单 。 在 查找 时 ， 我 们 首先 比较 键 的 
首 字母 和 根 结 点 的 字母 。 如 果 键 的 首 字母 较 小 , 就 选择 左 链 接 ; 如 果 较 大 , 就 选择 右 链接 ; 如 果 相等 ， 
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则 选择 中 链接 。 然 后 ， 递 归 地 使 用 相同 的 算法 。 如 果 遇 到 了 一 个 空 链接 或 者 当 键 结束 时 结 点 的 值 为 
空 ， 那么 查找 未 命中 ; 如 果 键 结束 时 结 点 的 值 非 空 则 查找 命中 。 在 插入 一 个 新 键 时 ， 首 先进 行 查找 ， 
然后 和 在 单词 查找 树 一 样 ， 在 树 中 补 全 键 末尾 的 所 有 结 点 。 算 法 5.5 给 出 了 这 些 方法 的 实现 细节 。 
这 种 实现 方式 等 价 于 将 R 向 单词 查找 树 中 的 每 个 结 点 实现 为 以 非 空 链接 所 对 应 的 字符 作为 键 
的 二 又 查找 树 。 不 同 的 是 ,算法 5.4 使 用 的 是 由 键 索 引 的 数组 。 图 5.2.10 显示 了 一 棵 单词 查找 树 
和 与 它 相 对 应 的 三 向 单词 查找 树 。 按 照 第 3 章 中 所 述 的 二 又 查找 树 和 其 他 排序 算法 之 间 的 对 应 关 
系 来 看 ， 我 们 可 以 发 现 三 向 单词 查找 树 与 三 向 字符 串 
快速 排序 之 间 的 对 应 关系 与 二 又 查找 树 与 快速 排序 以 
及 单词 查找 树 与 高 位 优先 的 排序 之 间 的 对 应 关系 是 一 


指向 所 有 首 字母 指向 所 有 首 字 
人 TS 拉克 


每 个 结 点 都 
含有 三 个 链接 


图 5.2.10 ”一 棵 单词 查找 树 所 对 应 的 三 向 
单词 查找 树 


算法 5.5 ”基于 三 向 单词 查找 树 的 符号 表 


样 的 。 


图 5.1.12 和 图 5.1.17 分 别 显示 了 高 位 优先 的 字 


符 串 排序 和 三 向 字符 串 快速 排序 的 递归 调用 结构 ， 它 
们 与 图 5.2.10 中 由 同一 组 键 所 构造 的 单词 查找 树 和 三 
向 单词 查找 树 正好 完全 对 应 。 单 词 查找 树 中 的 链接 所 
占用 的 空间 即 为 高 位 优先 的 字符 串 排序 中 的 计数 器 所 
占用 的 空间 。 三 向 分 支 为 两 者 都 提供 了 一 个 非常 有 效 


的 解决 方案 ， 


请 见 图 5.2.11 和 图 5.2.12。 


匹配 : 选择 中 链接 ， 
继续 处 理 下 一 个 字符 


get("sea") 


不 匹配 : 选择 左 链 接 或 者 
右 链接 ， 但 当前 字符 不 变 


返回 和 键 的 尾 
符 相 关联 的 值 


图 5.2.11 


三 向 单词 查找 树 中 的 查找 示例 


public class TST<Value> 
{ 
private Node root; 
private class Node 
上 
char c; 
Node left, mid, right; 
Value val; 


} 


// 字符 
// 左 中 右 子 三 向 单词 查找 树 
// 和 字符 串 相 关联 的 值 


// 树 的 根 结 点 
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public Value get(String key) // 和 单词 查找 树 相 同 (请 见 算法 5.4) 


private Node get(Node x, String key, int d) 


{ 
if (x == null1) return null; 
char c = key.charAt(d); 
if (Cc < x.c) return get(x.left, key, d); 
else if (c > x.c) return get(x.right, key, d); 
else if (d < key.length() - 1) 

return get(x.mid, key, d+1); 

else return x; 

3 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); +} 


private Node put(Node x, String key, Value val, int d) 


{ 
char c = key.charAt(d); 
if (x == null) { x = new Node(); x.c= cc; } 
i (Cc < x.c) x.left = put(x.left, key, val, d); 
else if (c > x.c) x.right = put(x.right, key, val, d); 
else if (d < key.length() - 1) 
x.mid = put(x.mid, key, val, d+1); 
else x.val = val; 
return x; 
} 


} 
这 段 实现 使 用 含有 一 个 char 类 型 的 值 c 和 三 条 链接 的 结 点 构建 了 三 向 单词 查找 树 ， 其 中 子 树 的 键 
的 首 字母 分 别 小 于 〈 左 子 树 ) 、 等 于 ( 中 子 树 ) 和 大 于 ( 右 子 树 ) c。 


标准 的 链接 数组 (R=26) 三 向 单词 查找 树 


指向 所 有 以 s (S) 
AN 一 一 开头 的 键 的 链接 “一 一 — 


7 < EA 
一 ~ 指向 所 有 以 一 


su 开头 的 键 


一 - 


的 链接 746 


图 5.2.12 单词 查找 树 结 点 示例 748 


5.2.4 ”三 向 单词 查找 树 的 性 质 

三 向 单词 查找 树 是 R 向 单词 查找 树 的 紧凑 表示 ， 但 两 种 数据 结构 的 性 质 截然 不 同 。 这 其 中 最 重 
要 的 不 同 可 能 在 于 命题 A 对 于 三 向 单词 查找 树 不 再 成 立 ， 和 其 他 所 有 二 叉 查 找 树 一 样 ， 每 个 单词 查 
找 树 结 点 的 二 又 查找 树 表示 也 取决 于 键 的 插入 顺序 。 
5.2.4.1 ”空间 

三 向 单词 查找 树 最 重要 的 性 质 就 是 每 个 结 点 只 含有 三 个 链接 ， 因 此 三 向 单词 查找 树 所 需要 空间 
远 小 于 对 应 的 单词 查找 树 。 
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命题 J。 由 个 平均 长 度 为 多 的 字符 串 构 造 的 三 向 单词 查找 树 中 的 链接 总 数 在 3N 到 3Nw 之 间 。 


证 明 。 同 命题 I。 


三 向 单词 查找 树 实际 使 用 的 内 存 空 间 一 般 都 低 于 由 每 个 字符 三 个 链接 得 到 的 上 界 ， 因 为 有 相同 
前 绥 的 键 会 共享 树 中 的 高 层 结 点 。 
5.2.4.2 ”查找 成 本 

要 计算 三 向 单词 查找 树 中 查找 ( 和 插入 ) 操作 的 成 本 ， 需 要 将 它 所 对 应 的 单词 查找 树 中 的 查找 
成 本 乘 以 遍历 每 个 结 点 的 二 叉 查 找 树 所 需 的 成 本 。 


命题 K。 在 一 棵 由 六 个 随机 字符 串 构 造 的 三 向 单词 查找 树 中 ， 查 找 未 命中 平均 需要 比较 字符 ~ InN 
5 这 == 


次 InN 次 外 ， 一 次 插入 或 命中 的 查找 会 比较 一 次 被 查找 的 键 中 的 每 个 字符 。 


< 


证 明 。 由 代码 我 们 马上 可 以 得 到 插入 和 查找 命中 的 成 本 。 查 找 未 命中 的 成 本 的 证 明和 命题 再 的 
简略 证 明 相同 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 
及 个 字符 值 随机 构造 的 二 又 查找 树 ， 且 树 的 平均 路 径 长 度 为 InR， 因 此 将 时 间 成 本 logrN=InN/ 
lnR 乘 以 lnR。 


在 最 坏 情况 下 ， 一 个 结 点 可 能 变 成 一 个 完全 的 尽 向 结 点 ， 不 平衡 是 像 一 条 链表 一 样 展 开 ， 因 此 
需要 乘 以 一 个 系数 R。 一 般 的 情况 下 ， 在 第 一 层 ( 因为 根 结 点 类 似 于 一 棵 由 R 个 不 同 的 值 组 成 的 随 
机 二 叉 查 找 树 ) 甚至 是 其 下 的 几 层 ( 如 果 键 存在 公共 的 前 级 且 前 级 之 后 的 字符 最 多 可 能 有 RR 种 不 同 
的 取 值 ) 那么 进行 字符 比较 的 次 数 将 是 InR 或 者 更 少 , 之 后 对 于 大 多 数字 符 也 只 需 进行 几 次 比较 ( 因 
为 指向 大 多 数 单词 查找 树 结 点 的 非 空 链接 的 分 布 十 分 稀疏 ) 。 未 命中 的 查找 一 般 都 需要 若干 次 字符 
比较 并 结束 于 单词 查找 树 高 层 的 某 个 空 链接 。 在 命中 的 查找 中 ， 被 查找 的 键 中 的 每 个 字符 都 需要 并 
且 只 需要 一 次 比较 ， 因 为 它们 大 多 数 都 是 单词 查找 树 底 部 的 单 向 分 支 上 的 结 点 。 
5.2.4.3 ”字母 表 
使 用 三 向 单词 查找 树 的 最 大 好 处 是 它 能 够 很 好 地 适应 实际 应 用 中 可 能 出 现 的 被 查找 键 的 不 规则 
性 。 需 要 特别 注意 到 的 是 ， 不 应 该 按照 用 例 提供 的 字母 表 构造 字符 串 ， 这 对 于 单词 查找 树 很 关键 。 
这 主要 会 产生 两 点 影响 。 首 先 ， 实 际 应 用 中 的 键 都 来 自 于 大 型 字母 表 ， 而 且 字 符 集中 的 各 个 字符 的 
使 用 是 非常 不 均衡 的 。 有 了 三 向 单词 查找 树 ， 我 们 可 以 使 用 256 个 字符 的 ASCII 编码 或 者 65 536 
个 字符 的 Unicode 编码 ， 而 不 必 担 心 256 向 分 支 或 者 65 536 向 分 支 带 来 的 巨大 开销 ， 也 不 必 判 断 哪 
些 才 是 相关 的 字符 集 。 非 罗马 字母 表 的 Unicode 字符 串 中 可 能 含有 上 千 种 字符 一 一 三 向 单词 查找 树 
特别 适合 于 可 能 含有 此 类 字符 的 Java 标准 String 类 型 的 键 。 其 次 ， 实 际 应 用 程序 中 的 键 常常 有 着 
类 似 的 结构 ， 这 在 不 同 的 应 用 之 中 可 能 不 同 。 键 的 一 部 分 可 能 只 会 使 用 字母 ， 而 另 一 部 分 可 能 只 会 
使 用 数字 。 在 加 利 福 尼 亚 州 的 车 牌号 的 例子 中 ， 第 二 、 三 、 四 个 字符 都 是 大 写字 母 (R=26 ) ， 而 其 
他 字符 都 是 数字 (R=10 ) 。 在 这 种 键 构造 的 三 向 单词 查找 树 中 ， 一 部 分 结 点 会 被 表示 为 10 结 点 的 
二 又 查找 树 ( 键 的 数字 部 分 ) ， 另 一 部 分 结 点 会 被 表示 为 26 结 点 的 二 又 查 找 树 ( 键 的 字母 部 分 ) 。 
这 种 结构 的 生成 是 自动 的 ， 无 需 对 键 进行 特别 分 析 。 
5.2.4.4 ”前缀 匹配 、 查 找 所 有 键 和 通配符 匹配 

因为 三 向 单词 查找 树 也 是 单词 查找 树 ， 前 文中 单词 查找 树 的 1ongestPrefixOf() 、keys 0) 、 
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keysWithPrefix() 和 keysThatMatch() 方法 的 实现 可 以 很 容易 移植 过 来 。 这 个 练习 能 够 加 深 你 
对 单词 查找 树 和 三 向 单词 查找 树 的 理解 (请 见 练习 5.2.9 ) 。 和 查找 操作 一 样 ， 这 里 也 存在 空间 和 时 
间 的 交换 ( 使 用 线性 级 别 的 内 存 空间 ， 但 每 个 字符 的 比较 次 数 需要 乘 以 InR ) 。 
5.2.4.5 ”删除 操作 
三 向 单词 查找 树 中 的 delete 0 方法 要 更 复杂 一 些 。 从 本 质 上 来 说 ， 每 个 将 被 删除 的 字符 都 属 
于 一 棵 二 叉 查 找 树 。 在 单词 查找 树 中 ， 只 需 将 链接 数组 中 和 该 字符 对 应 的 元 素 置 为 空 即 可 删 去 它 的 
链接 。 在 三 向 单词 查找 树 中 ， 需 要 用 在 二 义 查 找 树 中 删除 结 点 的 方法 来 删 去 与 该 字符 对 应 的 结 点 。 
5.2.4.6 混合 三 向 单词 查找 树 
简单 改进 一 下 基于 三 向 单词 查找 树 的 查找 方式 : 使 用 一 个 大 型 显 式 的 多 向 根 结 点 。 实 现 它 最 简 
单 的 办 法 就 是 维护 一 张 含 有 尺 棵 三 向 单词 查找 树 的 表 : 每 一 棵 都 对 应 着 键 的 首 字母 的 一 种 可 能 的 值 。 
如 果 R 不 大 ， 那 可 以 使 用 键 的 头 两 个 字母 ( 表 的 大 小 变 为 R) 。 这 种 方法 有 效 的 前 提 是 键 的 首 字母 
的 分 布 必 须 均 匀 。 这 样 得 到 的 混合 查找 算法 和 人 们 在 电话 黄页 中 查找 姓名 的 行为 很 相似 。 查 找 的 第 |750 
一 步 是 进行 多 向 判断 (“让 我 们 来 看 看 , 它 的 首 字母 是 “A””), 接 下 来 可 能 是 某 种 双向 判断 (“ 它 
在 “Andrews” 之 前 , 但 在 “Aitken” 之 后 ”) ， 然 后 就 是 一 系列 字符 匹配 ( ““Algonquin”，……… 
没有 ，“Algorithms” 不 在 列表 之 中 ， 因 为 没有 以 “Algor” 开 头 的 单词 ! ”) 。 这 些 程序 可 能 是 
找 字符 串 类 型 的 键 的 最 快 算法 。 
5.2.4.7 单 向 分 支 
和 单词 查找 树 一 样 ， 我 们 也 可 以 通过 将 键 的 尾 字母 变 为 叶子 结 点 并 在 内 部 结 点 中 消除 单 向 分 支 
来 提高 三 问 单 词 查找 树 的 空间 利用 率 。 


a 


了 区 


命题 L。 由 个 随机 字符 串 构 造 的 根 结 点 进行 了 尺 向 分 支 且 不 含有 外 部 单 向 分 支 的 三 向 单词 查 
找 树 中 ， 一 次 插入 或 查找 操作 平均 需要 进行 约 InN-tlnR 次 字符 比较 。 


证 明 。 这 些 粗略 的 估计 也 可 以 由 命题 K 的 证 明 得 到 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 
层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 RR 个 字符 值 组 成 的 二 又 查找 树 ， 因 此 需要 将 时 间 成 本 
乘 以 InR。 


尽管 将 算法 调 优 至 最 佳 性 能 是 一 个 非常 大 的 诱惑 ， 我 们 不 应 该 忘记 三 向 单词 查找 树 最 吸引 人 的 
寺 点 ， 那 就 是 不 必 担 心 对 特定 应 用 场景 的 依赖 ， 即 使 是 在 没有 调 优 的 情况 下 也 能 提供 不 错 的 性 能 。 [751 


5.2.5 ”应 该 使 用 字符 串 符号 表 的 哪 种 实现 

和 字符 串 排 序 一 样 ， 我 们 自然 也 想 对 比 一 下 已 经 学 习 过 的 字符 串 查 找 方法 和 第 3 章 中 学 习 
的 通用 方法 。 表 5.2.3 总 结 了 已 讨论 过 的 各 种 算法 的 重要 性 质 〈 二 又 查找 树 、 红 黑 树 和 散 列 表 的 
条 目 来 自 第 3 音 ， 作 为 比较 之 用 ) 。 对 于 特定 的 应 用 场景 ， 这 些 条 目 有 指导 意义 ， 但 并 非 绝 对 
的 结论 ， 因 为 在 研究 符号 表 实 现 的 过 程 中 发 现 许 多 因素 〈 例如 键 的 性 质 和 混合 操作 的 顺序 ) 都 
会 产生 影响 。 

如 果 空 间 足 够 ，R 向 单词 查找 树 的 速度 是 最 快 的 ， 能 够 在 常数 次 字符 比较 内 完成 查找 。 对 于 大 
型 字母 表 ,R 向 单词 查找 树 所 需 的 空间 可 能 无 法 满足 时 , 三 向 单词 查找 树 是 最 佳 的 选择 , 因为 它 对 “ 字 
符 ” 比 较 次 数 是 对 数 级 别 的 比较 ， 而 二 又 查找 树 中 键 的 比较 次 数 是 对 数 级 别 的 。 散 列表 也 是 很 有 苋 
争 力 的 ,但 如 前 文 所 述 ， 它 不 支持 有 序 性 的 符号 表 操作 ， 也 不 支持 扩展 的 字符 类 API 操作 ， 例 如 前 
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752| ”级 或 通配符 匹配 。 
表 5.2.3 各 种 字符 串 查找 算法 的 性 能 特点 
处 理由 大 小 为 R 的 字母 表 构 造 的 NN 个 字符 串 
算法 (数据 结构 ) (平均 长 度 为 w) 的 增长 数量 级 优点 
未 命中 查找 检查 的 字符 数量 内 存 使 用 
二 又 树 查找 (BST) cilgNy 64N 适用 于 随机 排列 的 键 
2-3 树 查找 ( 红 黑 树 ) clgN) 64N 有 性 能 保证 
线性 探测 法 ( 并 行 数 组 ) w 32N~128N 内 置 类 型 
缓存 散 列 值 
字典 树 查找 (RR 向 单词 查找 树 ) logaN (8R+56)N~(8R+56) | 适用 于 较 短 的 键 和 较 小 的 
Nw 字母 表 
字典 树 查 找 ( 三 向 单词 查找 树 ) 1.39lgN 64N~64Nw 适用 于 非 随 机 的 键 


问 Java 的 系统 排序 方法 使 


答 没有 。 


图 练习 
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.2.1 将 以 下 键 按照 
fo al go pe 


33 


to co 


5.2.2 将 以 下 键 按照 顺序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 画 


al go pe to co to 
5.2.3 将 以 下 键 按照 


time for all 


5.2.4 将 以 下 键 按照 


to th ai of th pa。 


th ai of th pa。 


顺序 搬入 一 棵 尺 向 空 单 词 查找 树 之 中 
good people to come to the aid of。 
顺序 插 人 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 


time for all good people to come to the aid of。 


] 了 本 节 介 绍 的 方法 来 查找 String 类 型 的 键 吗 ? 


画 出 结果 ( 忽略 空 链接 ) : 


抽 序 插入 一 棵 R 向 空 单词 查找 树 之 中 并 夯 出 结果 ( 忽略 空 链接 ) : no is th ti 


: no is th ti fo 


now 1s the 


类 ) : now is the 


5.2.5 ”给 出 非 递归 版 本 的 TrieST 和 TST。 
5.2.6 ”对 于 StringSET 数据 类 型 ， 实 现 以 下 API， 如 表 5.2.4 所 示 。 
表 5.2.4 字符 串 集合 的 数据 类 型 的 API 
public class StringSET 
StringSET() 创建 一 个 字符 捉 的 集合 
void add(String key) 将 key 添加 到 集合 中 
void delete(String key) 从 集合 中 删除 key 
boolean contains(String key) key 是 否 存 在 于 集合 中 
boolean isEmpty() 集合 是 否 为 空 
int sizeO) 集合 中 的 键 的 数量 
754 String toString() 对 象 的 字符 串 表 示 


图 提高 
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题 


三 向 单词 查找 树 中 的 空 字符 串 。 三 向 单词 查找 树 (TST ) 的 代码 未 能 正确 处 理 空 字 符 串 。 说 明 原 
因 并 给 出 修正 方案 。 
单词 查找 树 的 有 序 性 操作 。 为 TrieST 实 现 floor()、ceiling()、rank() 和 select0) 方法 (来 
自 第 3 章 标准 有 序 性 符号 表 的 API) 。 
三 向 单词 查找 树 的 扩展 操作 。 为 三 向 单词 查找 树 实现 keys() 和 本 节 所 介绍 的 几 种 扩展 操作 : 
1ongestPrefixOf() 、keyswWithPrefix() 和 keysThatMatch() 。 
size() 方法 。 为 TrieST 和 TST 实现 最 为 即时 的 sizeQ 方法 (在 每 个 结 点 中 保存 子 树 中 的 键 
的 总 数 ) 。 
外 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 外 部 单 向 分 支 的 代码 。 
内 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 内 部 单 向 分 支 的 代码 。 
R 向 分 支 的 根 结 点 的 三 向 单词 查找 树 。 如 正文 所 述 ， 为 TST 添加 代码 ， 在 前 两 层 结 点 中 实现 多 
向 分 支 。 
长 度 为 工 的 不 同 子 字符 串 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 长 度 为 工 的 
不 同 子 字符 串 的 数量 。 例如， 如 果 输 入 为 cgcgggcgcg, 那么 长 度 为 3 的 不 同 子 字符 串 就 有 5 个 : 
cgc、cgg、gcg、ggc 和 ggg。 提 示 : 使 用 字符 串 方 法 substring(i,i+L) 来 提取 第 i 个子 字符 
串 并 将 它 插 入 到 一 张 符号 表 中 。 
不 同 子 字 符 串 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文 本 并 计算 其 中 任意 长 度 的 不 同 子 字符 
串 的 数量 。 后 级 树 能 够 高 效 完成 这 个 任务 一 一 请 见 第 6 章 。 
文档 的 相似 性 。 编 写 一 个 TST 的 静态 方法 用 例 ， 接 受 一 个 int 值 L 和 两 个 文件 名 作为 命令 行 参 
数 并 计算 两 份 文档 的 “ 工 - 相似 性 ”: 各 个 频率 向 量 之 间 的 欧 几 里 得 距离 ， 其 中 频率 向 量 为 各 个 
长 度 为 3 的 子 字符 串 (trigram ) 的 出 现 次 数 除 以 所 有 长 度 为 3 的 子 字符 串 的 总 数 。 给 出 一 个 静 
态 方 法 main()， 接 受 一 个 int 值 上 作为 命令 行 参 数 ， 从 标准 输入 中 获取 一 系列 文件 名 并 打印 出 
一 个 和 矩阵， 以 显示 所 有 文档 之 间 的 工 - 相似 性 。 
拼写 检查 。 编 写 一 个 TST 的 用 例 Spe11Checker， 从 命令 行 接受 一 个 英语 字典 文件 作为 参数 ， 然 
后 从 标准 输入 读 取 一 个 字符 串 并 打印 所 有 不 在 字典 中 的 单词 。 请 使 用 字符 串 集合 数据 类 型 。 
白 名 单 。 编 写 一 个 TST 的 用 例 ,解决 1.1 节 和 3.5 节 中 介绍 并 讨论 过 的 ( 请 见 3.5.2.2 节 ) 白 名 单 问题 。 
随机 电话 号 码 。 编 写 一 个 TrieST 的 用 例 (R=10 ) ， 从 命令 行 接受 一 个 int 值 N 并 打印 出 N 个 
形 如 Cxxx) xxx-xxxx 的 随机 电话 号 码 。 使 用 符号 表 避 人 免 出 现 重复 的 号 码 。 使 用 本 书 网 站 上 的 
AreaCodes.txt 来 避免 打印 出 不 存在 的 区 号 。 
是 否 含有 前 缓 。 为 StringSET 类 ( 请 见 练习 5.2.6 ) 添加 一 个 方法 containsPrefixO ， 接 受 一 个 字符 
串 s 作为 输入 ， 如 果 集 合 中 存在 某 个 以 s 作为 前 级 的 字符 串 时 返回 true。 
子 字 符 串 匹配 。 给 定 一 列 ( 短 ) 字 符 串 , 你 的 任务 是 找到 所 有 含有 用 户 所 寻找 的 字符 串 s 的 字符 串 。 
为 此 任务 设计 一 份 API 并 给 出 一 个 TST 用 例 来 实现 这 个 API。 提示: 将 每 个 单词 的 所 有 后 级 ( 例 
如 : string, tring, ring，ing, ng, g ) 插入 到 TST 中 。 
打字 的 猴子 。 假 设 有 一 只 会 打字 的 猴子 ， 它 打出 每 个 字母 的 概率 为 p， 结 束 一 个 单词 的 概率 为 
1-26p。 编 写 一 个 程序 ， 计 算 产 生 各 种 长 度 的 单词 的 概率 分 布 。 其 中 如 果 "abc" 出 现 了 多 次 ， 只 
计算 一 次 。 
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5.2.23 重复 元 素 ( 再 续 ) 。 使 用 StringSET (请 见 练习 5.2.6 ) 代替 HashSET 重新 完成 练习 3.5.30， 比 
较 两 种 方法 的 运行 时 间 。 然 后 使 用 dedup 为 N=10”"、10s 和 10 运行 实验 ， 用 随机 1ong 型 字符 串 
重复 实验 并 讨论 结果 。 

5.2.24 ”拼写 检查 器 。 使 用 本 书 网 站 上 的 dictionary.txt 文件 和 3.5.2.2 节 中 的 BlackFi1ter 用 例 重新 完成 
练习 3.5.31 并 打印 出 一 个 文本 文件 中 所 有 拼 错 的 单词 。 用 该 用 例 处 理 WarAndPeace.txt 文件 ， 比 
较 TrieST 和 TST 的 性 能 并 讨论 结果 。 

5.2.25 字典。 重新 完成 练习 3.5.32: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupCSV 的 用 例 的 
性 能 ( 使 用 TrieST 和 TST ) 。 确切 地 说 ,设计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 对 
大 量 输 入 和 大 量 查询 进行 性 能 测试 。 

5.2.26 索引。 重新 完成 练习 3.5.33: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupIndex 的 用 例 
的 性 能 ( 使 用 TrieST 和 TST ) 。 确切 地 说 ,设计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 

757 对 大 量 输 入 和 大 量 查 询 进 行 性 能 测试 。 
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5.3 ” 子 字 符 串 查找 


字符 串 的 一 种 基本 操作 就 是 子 字 符 串 查找 : 给 定 一 段 长 度 为 的 文本 和 一 个 长 度 为 W 的 模式 
(pattem ) 字符 串 ， 在 文本 中 找到 一 个 和 该 模式 相符 的 子 字符 串 ， 请 见 图 5.3.1。 解 决 该 问题 的 大 部 分 
算法 都 可 以 很 容易 地 扩展 为 找 出 文本 中 所 有 和 该 模式 相符 的 子 字 符 串 、 统 计 该 模式 在 文本 中 的 出 现 次 
数 、 或 者 找 出 上 下 文 〈《 和 该 模式 相符 的 子 字符 串 周 围 的 文字 ) 的 算法 。 


模式 一 N E E D L E 


正文 一 INAHAYSTACKNEE ED LE IN A 


匹配 
图 5.3.1 子 字符 串 的 查找 758 


当 你 在 文本 编辑 器 或 是 浏览 器 中 查找 某 个 单词 时 ， 就 是 在 查找 子 字符 串 。 事 实 上 ,该 问题 的 原 
台 动机 就 是 为 了 支持 这 种 查找 操作 。 字 符 串 查找 的 另 一 个 经 典 应 用 是 在 截获 的 通信 内 容 中 寻找 某 种 
重要 的 模式 。 一 位 军队 将 领 感 兴趣 的 可 能 是 在 截获 的 文本 中 寻找 和 “拂晓 进攻 ”类 似 的 字句 。 一 名 
黑客 感 兴趣 的 可 能 是 在 内 存 中 查找 与 “Password:” 相 关 的 内 容 。 在 今天 的 世界 中 ， 我 们 经 常 在 互联 
网 的 海量 信息 中 查找 字符 串 。 

为 了 更 好 地 理解 算法 ,请 记 住 模式 相对 于 文本 是 很 短 的 (M 可 能 等 于 100 或 者 1000 ) ， 而 文 
本 相对 于 模式 是 很 长 的 (WN 可 能 等 于 100 万 或 者 10 亿 ) 。 在 字符 串 查 找 中 ， 一 般 会 对 模式 进行 预 
处 理 来 支持 在 文本 中 的 快速 查找 。 

字符 串 查 找 是 一 个 很 有 趣 而 且 也 很 经 典 的 问题 : 人 们 发 明了 几 个 截然 不 同 〈 且 令 人 惊讶 的 ) 算 
法 ， 它 们 不 仅 产生 了 一 系列 能 够 实际 应 用 的 查找 方法 ， 而 且 也 展示 了 许多 重要 的 算法 设计 技巧 。 


5.3.1 历史 简介 

我 们 将 要 学 习 的 几 种 算法 有 一 段 有 趣 的 历史 。 我 们 在 这 里 进行 总 结 并 帮助 大 家 对 它们 的 地 位 有 
一 个 正确 的 认识 。 

子 字 符 串 查找 有 一 个 简单 而 使 用 广泛 的 暴力 算法 。 虽 然 它 在 最 坏 情况 下 的 运行 时 间 与 MN 成 正 
比 ， 但 是 在 处 理 许多 应 用 程序 中 的 字符 串 时 ( 除了 一 些 变 态 的 情况 之 外 ) ， 它 的 实际 运行 时 间 一 般 
与 M+ 成 正比 。 男 外 ， 它 很 好 地 利用 了 大 多 数 计算 机 系统 中 标准 的 结构 特性 ， 因 此 即使 是 更 加 巧 
妙 的 算法 也 很 难 超越 它 经 过 优化 后 的 版 本 的 性 能 。 

在 1970 年 ，S.Cook 在 理论 上 证 明了 一 个 关于 某 种 特定 类 型 的 抽象 计算 机 的 结论 。 这 个 结论 暗 
示 了 一 种 在 最 坏 情况 下 用 时 也 只 是 与 M +N 成 正比 的 解决 子 字符 串 查 找 问 题 的 算法 。D.E.Knuth 和 
V.R.Pratt 改进 了 Cook 用 来 证 明定 理 的 框架 ( 并非 为 实际 应 用 所 设计 ) 并 将 它 提 炼 为 一 个 相对 简单 
而 实用 的 算法 ,这 看 起 来 是 一 个 鲜 有 但 令 人 满意 的 将 理论 结果 ( 意外 的 ) 立 刻 转化 为 实际 应 用 的 例子 。 
但 实际 上 ，J.H.Morris 在 实现 一 个 文本 编辑 器 时 ， 为 了 解决 某 个 环 手 的 问题 ( 他 希望 能 够 在 文本 中 
避免 “ 回 退 ” ) 也 发 明了 几乎 相同 的 算法 。 殊 途 同 归 的 两 种 方式 得 到 了 同一 种 算法 ， 这 说 明 它 是 这 
个 问题 的 一 种 基础 的 解决 方案 。 

Knuth、Morris 和 Pratt 直到 1976 年 才 发 表 了 他 们 的 算法 。 在 这 段 时 间 里 , R.S.Boyer 和 J].S.Moore 

( 以 及 R.W.Gosper 独立 地 ) 发 明了 一 种 在 许多 应 用 程序 中 都 非常 快 的 算法 ， 该 算法 一 般 只 会 检查 文 

本 字符 串 中 的 一 部 分 字符 。 许 多 文本 编辑 器 都 使 用 了 这 个 算法 ， 以 显著 降低 字符 串 查 找 的 响应 时 间 。 
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Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 对 模式 字符 串 进 
十 分 星 深 而 且 也 限制 了 它们 的 应 用 范围 。 


了 ， 就 干脆 用 暴力 算法 代替 了 。 ) 


在 1980 年 ，M.O.Rabin 和 R.M.Karp 使 用 散 列 必 
间 与 M+N 成 正比 的 概率 极 高 的 算法 。 另 外 ， 
得 它 比 其 他 算法 更 适用 于 图 像 处 理 。 
这 段 历史 说 明 人 们 在 不 断 地 研究 更 好 的 算法 。 


的 发 展 。 


5.3.2 ”暴力 子 字符 串 查找 算法 


《事实 上 ， 有 位 系统 程序 员 觉得 


山中 


杂 的 预 处 理 ， 这 个 过 程 
orris 算法 实在 是 太 难 懂 


i 
乏 六 


F 发 出 了 一 种 与 暴力 算法 几乎 一 样 简单 但 运行 时 


它们 的 算法 还 可 以 扩展 到 二 维 的 模式 和 文本 中 ， 这 使 


有 实 上 大 家 都 认为 ， 这 个 经 典 问题 还 将 会 有 很 大 


子 字符 串 查 找 的 一 个 最 显而易见 的 方法 就 是 在 文本 中 模式 可 能 出 现 匹配 的 任何 地 方 检查 匹配 是 


香 存在 。 如 左 侧 框 注 所 示 的 searchO 方法 就 是 在 文本 字符 


public static int search(String pat, String txt) 


中 
int M = pat.length() ; 
untaNe= lengthloOs 


fommGme 0 = Ne Me 


{ 
Te 
for (j = 0; j < M; j++) 


if (txt.charAt(i+j) != pat.charAt(j)) 


break; 
ne Me 


return N; 


暴力 子 字符 串 查找 


// 找到 匹配 


// 未 找到 匹配 


txt 中 查找 模式 字符 串 pat 第 一 次 出 现 


的 位 置 。 这 段 程序 使 用 了 一 个 指 
针 守 跟踪 文本 ， 一 个 指针 了 跟踪 
模式 。 对 于 每 个 1， 代 码 首先 将 j 
重 置 为 0 并 不 断 将 它 增 大 ， 直 至 
找到 了 一 个 不 匹配 的 字符 或 是 模 
式 结束 (j==M ) 为 止 , 请 见 图 5.3.2。 
如 果 在 模式 字符 串 结 束 之 前 文本 
字符 串 就 已 经 结束 了 (i==N-M+1)， 
那么 就 没有 找到 匹配 : 模式 字符 
串 在 文本 中 不 存在 。 我 们 约定 在 
不 匹配 时 返回 N 的 值 。 

在 典型 的 字符 串 处 理应 用 程 
序 中 ， 索 引 j 增长 的 机 会 很 少 ， 


因此 该 算法 的 运行 时 间 与 N 成 正比 。 绝 大 多 数 比较 在 比较 第 一 个 字符 时 就 会 产生 不 匹配 。 例 如 ， 
假设 你 在 这 一 段 文字 之 中 查找 pattern 这 个 模式 字符 串 。 在 找到 模式 字符 串 的 第 一 次 匹配 之 前 共有 
191 个 单词 ， 其 中 只 有 7 个 的 首 字母 是 p〈 且 没有 以 pa 开头 的 单词 ) 。 因 此 字符 比较 的 总 次 数 为 
191+7， 也 就 是 说 文本 中 每 个 字符 平均 需要 比较 1.036 次 。 从 另 一 个 方面 来 说 ， 没 人 能 够 保证 算法 


总 是 如 此 高 效 。 例 如 ， 模 式 字 符 串 可 能 以 一 连 虽 
的 字符 串 ， 那 么 字符 串 的 查找 就 可 


很 慢 。 


的 A 开头 。 如 果 是 这 样 且 文本 也 包含 含有 一 大 种 A 


命题 M。 在 最 坏 情 况 下 ， 暴 力 子 字符 串 查 找 算 法 在 长 度 为 W 的 文本 中 查找 长 度 为 MM 的 模式 需 


要 ~NM 次 字符 比较 ， 请 见 图 5.3.3。 


证 明 。 一 种 最 坏 的 情况 是 文本 和 模式 都 是 一 连 串 的 A 接 一 个 B。 那 么 ， 对 于 N-M+1 个 可 能 的 


此 总 成 本 为 ~NM。 


匹配 位 置 ， 模 式 中 的 所 有 字符 都 需要 和 文本 比 对 ， 总 成 本 为 M(N-M+71)。 一 般 来 说 M 远 小 于 N， 


5.3 子 字符 串 查 找 十 


1 j] i+j 0 1 2 3 4 5 6 7 8 910 
txt—A B A C A D A B R A CcC 
0 2 攻 A BE 民 <— pat 
1 0 1 A 红色 的 元 素 
2 1 3 A ge 
灰色 的 元 素 
3 /st ho 
so 黑色 的 元 素 po 
和 文本 匹配 
SS 10 A B R A 
当 j 和 M 相 等 时 返回 1 有 
匹配 成 功 


图 5.3.2 ”暴力 子 字符 串 查 找 ( 另 见 彩 插 ) 


这 种 奇怪 的 字符 串 不 太 可 能 出 现在 英文 文本 之 中 ,但 在 其 他 应 用 场景 中 是 完全 可 能 的 ( 例如 二 


进 制 文本 ) ， 因 此 我 们 需要 更 好 的 算法 。 


1 j 1+j 0 1 2 3 4 5 6 7 8 9 
txt—~A A A A A A A A A B 

0 4 4 A A A A B<— pat 

1 4 5 A A A A B 

2 4 6 A A A A B 

3 4 7 A A A A B 

4 4 8 A A A A B 

5 5 10 A A A A B 


图 5.3.3 ”暴力 子 字符 串 查 找 (最 坏 情 况 ) 


下 方 框 注 所 示 的 该 算法 的 男 一 种 实现 是 有 指导 意义 的 。 和 以 前 一 样 ， 程 序 使 用 了 一 个 指针 i 跟 
踪 文 本 ， 一 个 指针 j 跟踪 模式 。 在 i 和 j 指向 的 字符 相 匹 配 时 ， 代 码 进行 的 字符 比较 和 上 一 个 实现 


相同 。 请 注意 ， 这 上段 代码 中 的 i 值 相 当 于 J 


FE 一 段 代 码 中 的 i+j: 它 指向 的 是 文本 中 已 经 匹配 过 的 字 


符 序 列 的 末端 (1 以 前 指向 的 是 这 个 序列 的 开头 ) 。 如 果 1 和 j 指向 的 字符 不 匹配 了 ， 那 么 需要 加 
退 这 两 个 指针 的 值 : 将 j 重新 指向 模式 的 开头 ， 将 1 指向 本 次 匹配 的 开始 位 置 的 下 一 个 字符 。 


public static int sear 


{ 
int j, M = pat.leng 
int 1, N = txt.leng 
For C1 = "00 = 0 
四 
if (txt.charAt(i 
else { 1 -= j; j 
3 
if (Jj == M) return 
else ret 
上 


ch(string pat, String txt) 


thO; 
thO; 
i <N &&j < Mi i++) 


) == pat.charAt(j)) j++; 
000 


i - M; // 找到 匹配 
urn N; // 未 找到 匹配 


暴力 子 字符 匹配 算法 的 另 一 种 实现 ( 显 式 回 退 ) 
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5.3.3 Knuth-Morris-Pratt 子 字 符 串 查找 算法 


Knuth、Morris 和 Pratt 发 明 的 算法 的 基本 思想 是 当 出 现 不 匹配 时 ,就 能 知晓 一 部 分 文本 的 内 容 ( 
为 在 匹配 失败 之 前 它们 已 经 和 模式 相 匹配 ) 。 我 们 可 以 利用 这 些 信息 避免 将 指针 回 退 到 所 有 这 些 已 
知 的 字符 之 前 。 

举 一 个 具体 的 例子 。 假 设 字 母 表 中 只 有 两 个 字符 ， 查 找 的 模式 字符 串 为 BA AAAAAAA 
A 。 现 在 , 假设 已 经 匹配 了 模式 中 的 5 个 字符 ,第 6 个 字符 匹配 失败 。 当 发 现 不 匹配 的 字符 时 ， 可 
以 知道 文本 中 的 前 6 个 字符 肯定 是 B A A A A B (前 5 个 匹配 , 第 6 个 失败 ) ， 文 本 指针 现在 指向 
的 是 末尾 的 字符 B。 你 可 以 观察 到 ,这 里 不 需要 回 退 文本 指针 1， 因为 正文 中 的 前 4 个 字符 都 是 A， 
均 与 模式 的 第 一 个 字符 不 匹配 。 男 外 ，i 当前 指向 的 字符 B 和 模式 的 第 一 个 字符 相 匹 配 ， 所 以 可 以 
直接 将 1 加 1， 以 比较 文本 中 的 下 一 个 字符 和 模式 中 的 第 二 个 字符 。 这 说 明 ， 对 于 这 个 模式 ， 可 以 
将 暴力 子 字 符 串 查找 算法 实现 中 的 else 语句 替换 为 j=1 ( 且 并 不 将 i 加 1) 。 因 为 循环 中 i 的 值 
并 未 变化 ， 这 种 方法 最 多 只 会 进行 N 次 字符 比较 。 这 次 特殊 变化 的 实际 影响 仅 限 于 这 种 特殊 情况 ， 
但 这 种 想法 是 值得 思考 的 一 一 Knuth-Morris-Pratt 算法 正 是 这 种 情况 的 一 般 化 。 令 人 惊讶 的 是 ， 在 匹 
配 失败 时 总 是 能 够 将 j 设 为 某 个 值 以 使 i 不 回 退 ,请 见 图 5.3.4。 

在 匹配 失败 时 ， 如 果 模 式 字 符 串 中 的 某 处 可 以 和 匹配 失败 处 的 正文 相 匹 配 ， 那 么 就 不 应 该 完全 
跳 过 所 有 已 经 匹配 的 所 有 字符 。 例 如 ， 当 在 文本 A A B A A B A A A A 中 查找 模式 AABAAA 
时 ， 我 们 首先 会 在 模式 的 第 6 个 字符 处 发 现 匹配 失败 ， 但 是 应 该 在 第 3 个 字符 处 继续 查找 ， 否 则 就 
会 错过 已 经 匹配 的 部 分 。KMP 算法 的 主要 思想 是 提前 判断 如 何 重新 开始 查找 ， 而 这 种 判断 只 取决 
于 模式 本 身 。 


i 
正文 、、 | 
在 第 6 个 字符 ABAAAABAAAAAAA AL A 
本 打败 之 后 一 BA A A A A 一 模式 字符 囊 
暴力 子 字符 串 查 B 
找 算法 会 回 退 这 一 _B 
里 并 重新 尝试 。 ”再 坛 了 ” _B 
再 试 -一 
二 7 
再 试 2 A A A A A A A A A 
再 斌 
A AAAAAAAA 
但 其 实 不 一 一 
需要 回 退 


图 5.3.4 文本 字符 串 的 指针 在 子 字符 串 查找 中 的 回 退 


5.3.3.1 模式 指针 的 回 退 

在 KMP 子 字符 串 查 找 算 法 中 ， 不 会 回 退 文本 指针 1， 而 是 使 用 一 个 数组 dfa[] [] 来 记录 匹配 
失败 时 模式 指针 j 应 该 回 退 多 远 。 对 于 每 个 字符 c, 在 比较 了 c 和 pat.charAt(j) 之 后 , dfa[c][j] 
表示 的 是 应 该 和 下 个 文本 字符 比较 的 模式 字符 的 位 置 。 在 查找 中 ，dfa[txt.charAt(i)][j] 是 在 
比较 了 txt.charAt(i) 和 pat.charAt(j) 之 后 应 该 和 txt.charAt(i+1) 比较 的 模式 字符 位 置 。 
在 匹配 时 会 继续 比较 下 一 个 字符 ， 因 此 dfa[pat.charAt(j)][j] 总 是 j+1。 在 不 匹配 时 ， 不仅 可 
以 知道 txt.charAt(i) 的 字符 ， 也 可 以 知道 正文 中 的 前 j-1 个 字符 ， 它 们 就 是 模式 中 的 前 j-1 个 
字符 。 对 于 每 个 字符 c， 你 可 以 将 这 个 过 程 想象 为 首先 将 模式 字符 串 的 一 个 副本 覆盖 在 这 j 个 字符 


之 上 (模式 中 的 前 j-1 个 字符 以 及 字 
符 c 一 一 需要 判断 的 是 当 这 些 字 符 就 是 
txt.charAt(i-j+1..i) 时 应 该 怎么 
办 ) ， 然 后 从 左 向 右 滑 动 这 个 副本 直到 
所 有 重 县 的 字符 都 相互 匹配 (或 者 没有 
相 匹 配 的 字符 ) 时 才 停 下 来 。 这 将 指明 
模式 字符 串 中 可 能 产生 匹配 的 下 一 个 
位 置 。 和 txt.charAt(i+1) ( dfa[txt. 
charAt(i)][j] ) 比较 的 模式 字符 的 索 
引 正 是 重 释 字 符 的 数量 , 请 见 图 5.3.5。 
5.3.3.2 KMP 查找 算法 

只 要 计算 出 了 dfa[][] 数组 ， 就 
得 到 了 后 面 框 注 所 示 的 子 字 符 串 查找 算 
法 : 当 1i 和 j 所 指向 的 字符 匹配 失败 时 
( 从 文本 的 i-j+1 处 开始 检查 模式 的 
匹配 情况 ) ， 模 式 可 能 匹配 的 下 一 个 位 
置 应 该 从 i-dfa[txt.charAt(i)][j] 
处 开始 。 按 照 算法 ， 从 该 位 置 开始 的 
dfa[txt.charAt(i)][j] 个 字符 和 模 
式 的 前 dfa[txt.charAt(i)][j] 个 字 
符 应 该 相同 ， 因 此 无 需 回 退 指针 ii， 只 
需要 将 j 设 为 dfa[txt.charAt(i)][j] 
并 将 i 加 1 即 可 ,这 正 是 当 i 和 j 所 
指向 的 字符 匹配 时 的 行为 。 
5.3.3.3 ”DFA 模拟 

说 明 这 个 过 程 的 一 种 较 好 的 方法 
是 使 用 确定 有 限 状 态 自动 机 (DFA ) 。 
事实 上 ， 由 它 的 名 字 你 也 可 以 看 出 ， 
dfa[][] 数组 定义 的 正 是 一 个 确定 有 限 
状态 自动 机 。 图 5.3.6 显示 确定 有 限 状 
态 自动 机 是 由 状态 (数字 标记 的 圆圈 ) 
和 转换 〈 带 标签 的 箭头 ) 组 成 的 。 模 式 
中 的 每 个 字符 都 对 应 着 一 个 状态 ， 每 个 
此 类 状态 能 够 转换 为 字母 表 中 的 任意 字 
符 。 对 于 子 字符 串 查 找 问题 ， 在 我 们 所 
考虑 的 DFA 中 ， 这 些 转换 中 只 有 一 条 
是 匹配 转换 (从 j 到 j+1， 标签 为 pat . 
charAt(j) ), 其 他 的 都 是 非 匹配 转换 ( 指 
向 左 侧 ) 。 所 有 状态 都 和 字符 的 比较 相 
对 应 ， 每 个 状态 都 表示 一 个 模式 字符 串 


5.3 子 字 符 串 查找 二 497 


j pat.charAt(j) dfa[][j] 文本 (也 是 模式 本 身 ) 
A B C ABABAC 
0 A 亚 A 
B 
0 
C 
0 
下 B 2 AB 
AA 
1 A 
AC 
0 
2 A 3 ABA 
ABB 
0 
ABC 
0 
3 B 4 ABAB 
ABAA 
1 A 
ABAC 
0 
4 A 5 ABABA 
ABABB 
0 
匹配 (继续 检查 下 一 个 ABABC 
字符 )， 将 dfa[pat. 0 
charAt(j)][j] 设 为 j+1 匹配 失败 时 
5 C 6 ABABAC 有 的 已 知 文本 
ABABAA” 字符 
1 A 
ABABAB 
匹配 失败 ws 4 ABAB 
模式 指针 回 退 ) 
回 退 的 距离 是 已 知 文本 字 


图 5.3.5 
C 时 模式 指针 


public int search( 


符 和 模式 的 最 大 重 倒 长度 


KMP 子 字 符 串 查 找 算 法 在 处 理 A B A B A 


的 回 退 


SaingR te 


{ // 模拟 DFA 处 理 文本 tXt 时 的 操作 


nt N= ExtelengthO Ms 


fom Om 

lf al ee 
Wf Me 
else ret 


KMP 子 字符 


pat.length() ; 
0; 1<Ne&&j<M i++) 
charAt(i)][j]; 

urn i - M; // 找到 匹配 

urn N; // 未 找到 匹配 


查找 算法 (DFA 模 拟 ) 


498 PE 第 5 章 字 符 串 


内 部 表示 的 索引 值 。 当 我 们 在 标记 为 j 的 状 

j 0 1 ?2 3 4 5 态 中 检查 文本 中 的 第 i 个 字符 时 ， 
pat.charAt(j) A B A B A C Be ey es 

A1l1 1 3 1 5 1 自动 机 的 行为 是 这 样 的 :，“ 沿 着 转 

dfalJ[j]lB 0 2 7/ 0 4 换 dfa[txt.charAt(i)][j] 前 进 并 

C0 0 0/0 0 6 ee a ee 

Sn 继续 检查 下 一 个 字符 (将 1 加 1 )。 

( 回 退 ) 这 对 于 一 个 匹配 的 转换 ， 就 向 右 移动 

到 像 表示 (加 1) 一 位 ， 因 为 dfa[pat.charAt(j)] 

[j] 的 值 总 是 j+1; 对 于 一 个 非 匹 配 

CPL EAS 人 转换 ， 就 在 向 左 移动 。 自 动机 每 次 


A 
A 一人 一 YH 一 加 5 从 左 向 右 从 文本 中 读 取 一 个 字符 并 


5 有 C 
~ Ee LHC 移动 到 一 个 新 的 状态 。 我 们 还 包 全 
了 一 个 不 会 进行 任何 转换 的 停止 状 


态 M。 自 动机 从 状态 0 开始 : 如 果 
自动 机 到 达 了 状态 M， 那 么 就 在 文 
图 5.3.6 ”和 模式 字符 串 A B A B A C 对 应 的 确定 有 限 状态 自 本 中 找到 了 和 模式 相 匹配 的 一 段 
Bb 字符 串 〈 我 们 称 这 种 情况 为 确定 有 
限 状态 自动 机 识别 了 该 模式 ) ; 如 果 自 动机 在 文本 结束 时 都 未 能 到 达 状 态 M， 那 么 就 可 以 知道 文本 中 
763| 不 存在 匹配 该 模式 的 子 字 符 串 。 每 个 模式 字符 串 都 对 应 着 一 个 自动 机 ( 由 保存 了 所 有 转换 的 dfa[] [] 
764| ”数组 表示 ) 。KMP 的 字符 串 查 找 方法 search() 只 是 一 段 模拟 自动 机 运行 的 Java 程序 。 


0 12 3 4 56 7 8 9101112 131415 16<—i 
读 取 这 些 字符 一 B C B A A BA CAAB A BA C A A<—txt.charAtCi) 
当前 状态 一 0 .0 0011123011 2 3 4 5 6 <j 
转换 到 该 状态 一 A 


字符 匹配 : 将 j 设 为 A 
dfa[txt.charAt(i)][j] 


=dfa[pat.charAt(j)][j] 
=]j+1 
A 
字符 不 匹配 : 将 j 设 为 BS 


dfa[txt.charAt(i)][j] A 
dp ei C 
arAt(j) 和 txt.charAt(i+1) ABABAC 


图 5.3.7 KMP 子 字 符 串 查找 算法 处 理 A B A B A C 时 的 轨迹 (DFA 模拟 ) 


要 体验 在 DFA 中 的 子 字符 串 查 找 操作 ， 你 可 以 先 想象 一 下 它 所 完成 的 两 件 最 简单 的 任务 。 在 
查找 过 程 的 开始 ， 从 文本 的 开头 进行 查找 ， 起 始 状 态 为 0。 它 停留 在 0 状态 并 扫描 文本 ， 直 到 找到 
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一 个 和 模式 的 首 字母 相同 的 字符 。 这 时 它 移 动 到 下 一 个 状态 并 开始 运行 。 在 这 个 过 程 的 最 后 ， 当 它 
找到 一 个 匹配 时 ， 它 会 不 断 地 匹配 模式 中 的 字符 与 文本 ， 自 动机 的 状态 会 不 断 前 进 直 到 状态 M。 图 
5.3.7 所 示 的 轨迹 给 出 了 DFA 运行 的 一 个 典型 例子 。 每 次 匹配 成 功 都 会 将 DFA 带 向 下 一 个 状态 (等 
价 于 增 大 模式 字符 串 的 指针 j ) ; 每 次 匹配 失败 都 会 使 DFA 回 到 较 早 前 的 状态 〈 等 价 于 将 模式 字 
符 串 的 指针 j 变 为 一 个 较 小 的 值 ) 。 正 文 指针 i 是 从 左 向 右前 进 的 ， 一 次 一 个 字符 ,但 索引 j 会 在 
DFA 的 指导 下 在 模式 字符 串 中 左右 移动 。 
5.3.3.4 ”构造 DFA 
现在 你 应 该 已 经 明白 了 DFA 的 原理 ， 接 下 来 解决 KMP 算法 的 关键 问题 : 如 何 计算 给 定 模式 相 
对 应 的 dfa[] [] 数组 ? 意外 的 是 ， 这 个 问题 的 答案 仍然 是 DFA 本 身 ! Knuth、Morris 和 Pratt 发 明 
了 这 种 巧妙 (但 也 相当 复杂 ) 的 构造 方式 。 当 在 pat.charAt(j) 处 匹配 失败 时 ， 和 希望 了 解 的 是 ， 
如 果 回 退 了 文本 指针 并 在 右 移 一 位 之 后 重新 扫描 已 知 的 文本 字符 ，DFA 的 状态 会 是 什么 ? 我 们 其 实 
并 不 想 回 退 ， 只 是 想 将 DFA 重 置 到 适当 的 状态 ， 就 好 像 已 经 回 退 过 文本 指针 一 样 。 765 
这 里 的 关键 在 于 需要 重新 扫描 的 文本 字符 正 是 pat. 1 
charAt(1) 到 pat.charAt(j-1) 之 间 ， 忽 略 了 首 字母 是 因为 
模式 需要 右 移 一 位 ， 忽 略 了 最 后 一 个 字符 是 因为 匹配 失败 。 这 2 
些 模式 中 的 字符 都 是 已 知 的 ， 因 此 对 于 每 个 可 能 匹配 失败 的 位 
置 都 可 以 预先 找到 重启 DFA 的 正确 状态 。 图 5.3.8 显示 了 示例 3 
中 的 各 种 可 能 性 。 请 务必 理解 这 个 概念 。 
DFA 应 该 如 何 处 理 下 一 个 字符 ”和 回 退 时 的 处 理 方式 相 。 “ 
同 ， 除 非 在 pat.charAt(j) 处 匹配 成 功 ， 这 时 DFA 应 该 前 
进 到 状态 j+1。 例如， 对 于 A BA BAC， 要 判断 在 j=5 时 匹 0 
配 失 败 后 DFA 应 该 怎么 做 。 通 过 DFA 可 以 知道 完全 回 退 之 后 i 
算法 会 扫描 BA BA 并 达到 状态 3， 因此 可 以 将 dfa[] [3] 复 和 重启 状态 的 DFA 模拟 
制 到 dfa[] [5] 并 将 C 所 对 应 的 元 素 的 值 设 为 6， 因 为 pat. 
charAt(5) 是 C (匹配 )。 因 为 在 计算 DFA 的 第 j 个 状态 时 只 需要 知道 DFA 是 如 何 处 理 前 j-1 个 
字符 的 ， 所 以 总 能 从 尚 不 完整 的 DFA 中 得 到 所 需 的 信息 。 
计算 中 最 后 一 个 关键 细节 是 ， 你 可 以 观察 到 在 处 理 dfa[] [] 的 第 j 列 时 维护 重启 位 置 X 很 容易 。 
因为 X<j， 所 以 可 以 由 已 经 构造 的 DFA 部 分 来 完成 这 个 任务 一 一 X 的 下 一 个 值 是 dfa[pat.charAt(j)] 
[X]。 继 续 上 一 段 中 的 例子 ,将 X 的 值 更 新 为 dfa['C'] [3]=0 (但 我 们 不 会 使 用 这 个 值 ， 因 为 DFA 的 
构造 已 经 完成 了 ) 。 
由 以 上 的 讨论 可 以 得 到 右 侧 框 注 这 段 短小 精 悍 的 


代码 来 构造 给 定 模式 的 DFA。 对 于 每 个 j， 它 将 会 : 。 ”ofalpat charAEC0)][0] = 、 
OEImeeXe = 0 = Me 


中 Oo 


办 口 | 四 吕 I 另 品 


1 
B 
1 
B 
1 


© 


口 将 dfa[] [X] 复制 到 dfa[][j] (对 于 匹配 失败 { ”// 计算 dfa[r] [j] 

的 情况 ) 
口 将 dfa[pat.charAt(j)][j] 设 为 j+1 (对 于 dfa[pat.charAt(j)][j] = j+1; 
匹配 成 功 的 情况 ) ; X = dfa[pat.charAt(j)][X] ; 
口 更 新 X。 } 

图 5.3.9 显示 了 这 上 段 代码 处 理 样 例 输入 的 轨迹 。 为 


KMP 子 字符 串 查 找 算法 中 DFA 的 构造 766 


了 确保 你 能 完全 理解 它 , 请 完成 练习 5.3.2 和 练习 5.3.3。 
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0 Cr jC 
A © —O 
| 0 
0 
| 
1 C CO 将 dfa[] [Xj 复制 到 dfa[] [j] 
B @- i B 一 ~ 人 @) dfa[pat.charAt(Jj)][j] = j+l1; 
xc X = dfa[pat.charAt(j)][X]; 
0 
| j 
C 六 
2 一 ， A 一 ~ 
2 总 一 人 一 
3 
0 
0 
| 
Mo 
1 要 Sy C 
4 
| 
X 
| 


2 
N 
sa 
| 
©@ 


人 
检 
IN 

% 


图 5.3.9 KMP 子 字符 串 查 找 算法 中 模式 ABABAC 的 DFA 的 构造 


算法 5.6 ”Knuth-Morris-Pratt 字符 串 查找 算法 


public class KMP 

{ 
private String pat; 
private int[][] dfa; 
public KMPCString pat) 
{ // 由 模式 字符 串 构造 DFA 
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this.pat = pat; 

int M = pat.length() ; 

int R = 256; 

dfa = new int[R][M]; 
dfa[pat.charAt(0)][0] = 1; 

for Cint X= 0, j = 1; j < M; j++) 
{ // 计算 dfa[][j] 


for (int c = 0; c < R; c++) 


dfa[c][j] = dfaf[c][X]; // 复制 匹配 失败 情况 下 的 值 
dfa[pat.charAt(j)][j] = j+1; // 设置 匹配 成 功 情 况 下 的 值 
X = dfa[pat.charAt(j)][X] ; // 更 新 重启 状态 


} 
} 
public int search(String txt) 
{ // 在 txt 上 模拟 DFA 的 运行 
int i, j, N= txt.length(), M = pat.length() ; 
for (i =0,j=0;i<N &&]j < Mi i++) 
j = dfa[txt.charAt(i)][j]; 
if (j == M) return i - M; // 找到 匹配 ( 到达 模式 字符 囊 的 结尾 ) 
else return N; // 未 找到 匹配 (到 达 文 本 字符 串 的 结尾 ) 
} 
public static void main(String[] args) 
// 请 见 下 一 页 的 “KMP 子 字符 串 查 找 算法 的 测试 用 例 ” 


} 
Pe ioe 2 KMP AACAA AABRAACADABRAACAADABRA 
es i 下 Si 四 % java 
算法 的 实现 的 构造 函数 根据 模式 字符 串 : AABRAACADABRAACAADABRA 
构造 了 一 个 确定 有 限 状态 自动 机 ， 使 用 pattern: AACAA 


search() 方法 在 给 定 文本 字符 串 中 查找 
模式 字符 串 。 它 和 暴力 子 字符 串 查 找 算法 的 功能 相同 ， 但 带 适 合 查找 自我 重复 性 的 模式 字符 串 。 


算法 5.6 实现 了 表 5.3.1 所 示 的 API。 


表 5.3.1 子 字符 串 查找 的 API 
public class KMP 
KMP(CString pat) 根据 模式 字符 串 pat 创建 一 个 DFA 


int search(String txt) 在 txt 中 找到 pat 的 出 现 位 置 


你 可 以 在 下 页 框 注 中 看 到 KMP 的 一 个 典型 的 测试 用 例 。KMP 的 构造 函数 会 根据 模式 字符 串 创 
建 一 个 DFA 并 用 searchQ 方法 中 在 给 定 的 文本 中 查找 该 模式 字符 串 。 


命题 N。 对 于 长 度 为 M 的 模式 字符 串 和 长 度 为 的 文本 ，Knuth-Morris-Pratt 字符 串 查 找 算法 访 
间 的 字符 不 会 超过 MHN 个 。 


证 明 。 由 代码 可 以 马上 得 到 ， 在 计算 dfa[][] 时 ,算法 会 访问 模式 字符 串 中 的 每 个 字符 一 次 ， 
在 search() 方法 中 会 访问 文本 中 的 每 个 字符 〈 最 坏 情况 下 ) 一 次 。 
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我 们 还 需要 引入 男 一 个 参数 ， 即 字母 表 的 大 小 R， 所 以 构造 DFA 所 需 的 总 时 间 ( 和 空间 ) 将 与 

MR 成 正比 。 如 果 在 构造 DFA 时 为 每 个 状态 设置 一 个 匹配 转换 和 一 个 非 匹配 转换 ( 而 非 指向 每 个 可 
能 出 现 的 字符 的 多 个 转换 ) ， 那 么 也 可 以 去 掉 参 数 R， 但 构造 过 程 会 更 加 复杂 一 些 。 

KMP 算法 为 最 坏 情况 提供 的 线性 级 别 

运行 时 间 保 证 是 一 个 重要 的 理论 成 果 。 在 


public static void main(String[] args) 


{ 实际 应 用 中 ， 它 比 暴力 算法 的 速度 优势 并 
mh 不 十 分 明显 ， 因 为 极 少 有 应 用 程序 需要 在 
SEngn exe Sangsle Te ee 天 
KMP kmp = new KMPCpat) ; 重复 性 很 高 的 文本 中 查找 重复 性 很 高 的 模 
Stdout.println("text: " + txt); 直 。 但 该 方法 的 一 个 优 点 是 不 需要 在 输入 
int offset = kmp.search(txt); ca ee . 、 
Std0ue prinee pattern a 中 回 退 。 这 使 得 KMP 子 字符 串 查 找 算 法 更 
Der ee 适合 在 长 度 不 确定 的 输入 流 ( 例如 标准 输 

stdoOutsbrnmeG 六 有 i 
StdOut.printlnCpat) ; 入 ) 中 进行 查找 ， 需 要 回 退 的 算法 在 这 种 
} 情况 下 则 需要 复杂 的 缓冲 机 制 。 但 其 实 当 
回 退 很 容易 时 ， 还 可 以 比 KMP 快 得 多 。 下 
KMP 子 字符 串 查找 算法 的 测试 用 例 面 ， 我 们 来 学 习 一 种 利用 回 退 来 获取 巨大 
性 能 收益 的 算法 。 


5.3.4 ”Boyer-Moore 字符 串 查找 算法 

当 可 以 在 文本 字符 串 中 回 退 时 ， 如 果 可 以 从 右 向 左 扫 描 模 式 字符 串 并 将 它 和 文本 匹配 ， 那 么 就 
能 得 到 一 种 非常 快 的 字符 串 查找 算法 。 例 如 ， 在 查找 子 字符 串 B A A B B A A 时 ， 如 果 匹 配 了 第 
七 个 和 第 六 个 字符 ， 但 在 第 5 个 字符 处 匹配 失败 ， 那 马上 就 可 以 将 模式 向 右 移动 7 个 位 置 并 继续 检 
查 文本 中 的 第 14 个 字符 。 这 是 因为 部 分 匹配 找到 了 X A A 而 X 不 是 B， 而 这 3 个 连续 的 字符 在 模 
式 中 是 唯一 的 。 一 般 来 说 ， 模 式 的 结尾 部 分 也 可 能 出 现在 文本 的 其 他 位 置 ， 因 此 和 Knuth-Morris- 
Pratt 算法 一 样 ， 也 需要 一 个 记录 重启 位 置 的 数组 。 本 节 不 会 再 次 详细 介绍 它 的 构造 方法 ， 因 为 它 和 
Knuth-Morris-Pratt 算法 中 的 实现 很 相似 。 这 里 将 讨论 Boyer 和 Moore 给 出 的 另 一 种 从 右 向 左 扫描 模 
式 字符 串 的 更 有 效 的 方法 。 

和 KMP 子 字符 串 查找 算法 的 实现 一 样 ， 我 们 会 根据 匹配 失败 时 文本 和 模式 中 的 字符 来 决定 下 
一 步 的 行动 。 而 预 处 理 步 又 的 目的 在 于 判断 对 于 文本 中 可 能 出 现 的 每 一 个 字符 ， 在 匹配 失败 时 算法 
应 该 怎么 办 。 将 这 个 想法 变 为 现实 就 可 以 得 到 一 种 高 效 实用 的 子 字符 中 查找 算法 。 
5.3.4.1 启发 式 的 处 理 不 匹配 的 字符 

请 看 图 $5.3.10， 它 显示 了 在 文本 F I ND INAHAYSTACKNEEDLE 中 查找 模 
式 N E E D LE 的 过 程 。 因 为 是 从 右 向 左 与 模式 进行 匹配 ， 所 以 首先 会 比较 模式 字符 串 中 的 E 和 
文本 中 的 N (位 置 为 5 的 字符 ) 。 因 为 N 也 出 现在 了 模式 字符 串 中 ， 所 以 将 模式 字符 串 向 右 移 动 
个 位 置 ， 将 文本 中 的 字符 N 和 模式 字符 串 中 ( 最 左 侧 ) 的 N 对 齐 。 然 后 比较 模式 字符 串 最 右 侧 的 E 
和 文本 中 的 S (位 置 在 第 10 个 字符 ) ， 匹 配 失败 。 但 因为 S 不 包含 在 模式 字符 串 中 ， 所 以 可 以 将 
模式 字符 串 向 右 移动 6 个 位 置 。 此 时 模式 字符 串 最 右 侧 的 E 和 文本 中 位 置 为 16 的 E 相 匹配 ， 但 我 
们 发 现 文本 的 下 一 个 (位置 为 15 的 ) 字符 为 N， 匹 配 再 次 失败 。 于 是 和 第 一 次 一 样 ， 将 模式 字符 串 
再 次 向 右 移动 4 个 位 置 。 最后， 从 位 置 20 处 开始 从 右 向 左 扫 描 ， 发 现 文本 中 含有 与 模式 匹配 的 子 
字符 串 。 这 种 方法 找到 匹配 位 置 仅 用 了 4 次 字符 比较 (以 及 6 次 比较 来 验证 匹配 ) ! 
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1 j 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 

文本 一 ~-F I ND INA HA YS TA Ck NE ED L E 

0 5 E -< 一 模式 字符 串 

5 5 E 

于 下 4 L E 

15 0 N E E D L E 

\ 
返回 1=15 
图 5.3.10 ”从 右 向 左 的 (Boyer-Moore) 子 字符 串 查找 中 的 启发 式 地 处 理 不 匹配 的 字符 770 

5.3.4.2 ”起 点 

要 实现 启发 式 地 处 理 不 匹配 的 字符 ， 我 们 NE ED LE ， 
使 用 数组 right[] 记录 字母 表 中 的 每 个 字符 在 < 9 1 3 4 5 Dens 
模式 中 出 现 的 最 靠 右 的 地 方 (如 果 字 符 在 模式 8 -1 1 
中 不 存在 则 表示 为 -1 ) 。 这 个 值 揭示 了 如 果 该 “cc -1 _1 
字符 出 现在 文本 中 且 在 查找 时 造成 了 一 次 匹配 D -1 3 3 
失败 ， 应 该 向 右 跳 跃 多 远 。 要 将 right[] 数 组 上 -i 和 3 
初始 化 ， 首 先 将 所 有 元 素 的 值 设 为 -1, 然后 对 ” _] 
于 0 到 M-1 的 j， 将 right[pat.charAt(j)] M _1 _1 
设 为 了]， 如 图 5.3.11 对 模式 N E E D L E 的 处 N -1 0 0 
理 所 示 。 ee 
549 了 了 人 作 遇 的 过 发 图 5.3.11 BoyerMoore 算法 中 的 跳跃 表 的 计算 

在 计算 完 right[] 数组 之 后 ,算法 5.7 的 。 和 
实现 就 很 简单 了 。 我 们 用 一 个 索引 i 在 文本 中 J 
从 左 向 右 移动 ， 用 另 一 个 索引 j 在 模式 中 从 右 er 


向 左 移动 。 内 循环 会 检查 正文 和 模式 字符 串 在 人 i 
位 置 了 是 否 一 致 。 如 果 从 M-1 到 0 的 所 有 jj， 将 i Bl | 似 于 KMP 算 法 的 
txt.charAt(i+j) 都 和 pat.charAt(j) 相等 ， | 表格 将 i 变 得 更 大 
那么 就 找到 了 一 个 匹配 。 否 则 匹配 失败 ， 就 会 
遇 到 以 下 三 种 情况 。 将 j 重 置 为 M-I 人 
口 如 果 造 成 匹配 失败 的 字符 不 包含 在 模式 a 
位置 ( 即将 i 增加 j+1) 。 小 于 这 个 
偏 移 量 只 可 能 使 该 字符 与 模式 中 的 某 个 字符 重 琶 。 事 实 上 ， 这 次 移动 也 会 将 模式 字符 串 前 函 
一 部 分 已 知 的 字符 和 模式 结尾 的 一 部 分 已 知 字符 对 齐 。 通 过 预先 计算 一 张 类 似 于 MP 算法 
的 表格 ,还 可 以 将 i 值 变 得 更 大 ( 请 见 图 5.3.12 ) 。 
口 如 果 造 成 匹配 失败 的 字符 包含 在 模式 字符 串 中 ， 那 就 可 以 使 用 right[] 数组 来 将 模式 字符 
串 和 文本 对 齐 ， 使 得 该 字符 和 它 在 模式 字符 串 中 出 现 的 最 右 位 置 相 匹配 。 和 刚才 一 样 ， 小 于 
这 个 偏 移 量 只 可 能 使 该 字符 和 模式 中 的 与 它 无 法 匹配 的 字符 ( 比 它 出 现 的 最 右 位 置 更 靠 右 的 
字符 ) 重茬 。 我 们 可 以 用 一 张 类 似 于 KMP 算法 的 表格 将 i 变 得 更 大 ， 如 图 5.3.13 所 示 。 771 
口 如 果 这 种 方式 无 法 增 大 1， 那 就 直接 将 i 加 1 来 保证 模式 字符 串 至 少 向 右 移动 了 一 个 位 置 。 
图 5.3.13 下 方 的 例子 说 明了 这 种 情况 。 


504 PE 第 5 章 字 符 串 


算法 5.7 简明 地 实现 了 这 个 过 程 。 基本 思想 | 2 
请 注意 ， 使 用 -1 表示 right[] 数组 中 N L E 
相应 字符 不 包含 在 模式 字符 串 中 ， 这 个 L E 
约定 能 够 将 前 公 务 ] 增 
定 能 够 将 前 两 种 情况 合并 (将 i 增 大 了 可 以 根 操 一 张 灯 
j-right[txt.charAt(i+j)] ) 。 将 i 增 大 j-right['N'] 来 :i 似 于 KMP 算 法 的 
完整 的 Boyer-Moore 算法 预计 算 了 将 文本 和 模式 中 的 N 对 齐 | pag 表格 将 1 变 得 更 大 


模式 字符 串 与 自身 的 不 匹配 情况 (和 
KMP 算法 的 方式 类 似 ?”) 并 为 最 坏 情 况 将 j 重 置 为 (1 
提供 了 线性 级 别 的 运行 时 间 保 证 〈 而 算 
法 5.7 在 最 坏 情 况 下 的 运行 时 间 与 NM 


启发 式 方法 没有 起 作用 的 情况 


i+j 
成 正比 一 一 请 见 练习 5.3.19 ) 。 我 们 在 | ce 
这 里 省 略 了 算法 的 计算 ， 因 为 在 一 般 的 i 
应 用 程序 中 对 不 匹配 字符 的 启发 式 处 理 L 
对 齐 则 会 将 模式 字符 串 向 左 移动 
可 以 根据 站 关 
i 以 于 KMP 算 法 
因此 只 能 将 i 加 1 1 ,表格 将 i 变 得 更 大 
命题 O。 在 一 般 情 况 下 ， 对 于 长 度 
的 文科 为 M 的 模式 字 


符 串 ， 使 用 了 站 和 将 j 重 置 为 M-1 j 
串 查 找 算 法 通过 启发 式 处 理 不 匹 
配 的 字符 0 字符 比较 。 


图 5.3.13 ”启发 式 的 处 理 不 匹配 的 字符 (不 匹配 的 字符 包含 
在 模式 字符 串 中 ) 


讨论 。 我 们 可 以 用 各 种 随机 字符 串 模 型 证 明 该 结论 ， 但 这 些 模 型 一 般 都 不 太 可 能 在 实际 情况 中 
出 现 ， 因 此 这 里 省 略 了 证 明 的 细节 。 在 许多 实际 应 用 场景 中 ， 模 式 字符 串 中 仅 含 有 字母 表 中 的 
若干 字符 是 很 常见 的 ， 因 此 几乎 所 有 的 比较 都 会 使 算法 跳 过 M 个 字符 ,这 样 就 得 到 了 以 上 结论 。 


算法 5.7 ”Boyer-Moore 字符 串 匹配 算法 〈 启 发 式 地 处 理 不 匹配 的 字符 ) 


public class BoyerMoore 
{ 
private int[] right; 
private String pat; 
BoyerMoore(String pat) 
{ // 计算 跳跃 表 
this.pat = pat; 
int M = pat.lengthO; 
int R = 256; 
right new int[R]; 


中 即 跳跃 表 。 一 一 译 者 注 
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for Cint C = 0; c < R; c++) 


right[c] = -1; // 不 包含 在 模式 字符 串 中 的 字符 的 值 为 -1 
for Cint j = 0; j < M; j++) // 包含 在 模式 字符 串 中 的 字符 的 值 为 
right[pat.charAt(j)] = j; // 它 在 其 中 出 现 的 最 右 位 置 


} 


public int search(String txt) 
{ // 在 txt 中 查找 模式 字符 串 
int N = txt.length() ; 
int M = pat.length() ; 
int skip; 
for (Cint i = 0; i <= N-M; i += skip) 
{ // 模式 字符 囊 和 文本 在 位 置 1 匹 配 吗 ? 
skip = 0; 
for Cint j = M-1; j >= 0; j--) 
if (pat.charAt(j) != txt.charAt(i+j)) 
{ 
skip = j - right[txt.charAt(Ci+j)]; 
if (skip < 1) skip = 1; 
break; 
} 
if (skip == 0) return ii; // 找到 匹配 
} 
return N; // 未 找到 匹配 
} 


public static void main(CString[] args) // 请 见 502 页 代码 框 
} 
这 段子 字符 串 查 找 算 法 的 实现 的 构造 函数 根据 模式 字符 串 构造 了 一 张 每 个 字符 在 模式 中 出 现 的 最 右 
位 置 的 表格 。 查 找 算法 会 从 右 向 左 扫描 模式 字符 串 ， 并 在 匹配 失败 时 通过 跳跃 将 文本 中 的 字符 和 它 在 模 [772 
式 字 符 串 中 出 现 的 最 右 位 置 对 齐 。 173 


5.3.5 ”Rabin-Karp 指纹 字符 串 查 找 算法 

M.O.Rabin 和 R.A.Karp 发 明了 一 种 完全 不 同 的 基于 散 列 的 字符 串 查找 算法 。 我 们 需要 计算 模式 
字符 串 的 散 列 函数 ， 然 后 用 相同 的 散 列 也 数 计算 文本 中 所 有 可 能 的 M 个 字符 的 子 字 符 串 散 列 值 并 
寻找 匹配 。 如 果 找 到 了 一 个 散 列 值 和 模式 字符 串 相 同 的 子 字 符 串 ， 那 么 再 继续 验证 两 者 是 否 匹 配 。 
这 个 过 程 等 价 于 将 模式 保存 在 一 张 散 列表 中 ， 然 后 在 文本 的 所 有 子 字 符 串 中 进行 查找 。 但 不 需要 为 
散 列 表 预 留任 何 空间 ， 因 为 它 只 会 含有 一 个 元 素 。 根 据 这 段 描述 直接 实现 的 算法 将 会 比 暴 力 子 字符 
串 查 找 算法 慢 很 多 ( 因为 计算 散 列 值 将 会 涉及 字符 串 中 的 每 个 字符 ， 成 本 比 直 接 比 较 这 些 字 符 要 高 
得 多 ) 。Rabin 和 Karp 发 明了 一 种 能 够 在 常数 时 间 内 算出 M 个 字符 的 子 字 符 串 散 列 值 的 方法 〈 需 
要 预 处 理 ) ， 这 样 就 得 到 了 在 实际 应 用 中 的 运行 时 间 为 线性 级 别 的 字符 串 查找 算法 。 
5.3.5.1 基本 思想 

长 度 为 M 的 字符 串 对 应 着 一 个 R 进 制 的 M 位 数 。 为 了 用 一 张大 小 为 Q 的 散 列表 来 保存 这 种 类 型 
的 键 , 需要 一 个 能 够 将 R 进 制 的 M 位 数 转 化 为 一 个 0 到 Q-1 之 间 的 int 值 散 列 函 数 。 除 留 余 数 法 (请 
见 3.4 节 ) 是 一 个 很 好 的 选择 : 将 该 数 除 以 Q 并 取 余 。 在 实际 应 用 中 会 使 用 一 个 随机 的 素数 Q， 在 不 
洪 出 的 情况 下 选择 一 个 尽 可 能 大 的 值 。 ( 因为 我 们 并 不 会 真 的 需要 一 张 散 列表 。 ) 理解 这 个 方法 最 
简单 的 办 法 就 是 取 一 个 较 小 的 Q 和 R=10 的 情况 ， 如 下 所 示 。 要 在 文本 3 14159265358 
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9 7 9 3 中 找到 模式 2 6 5 3 5， 首 先 要 选择 散 列 表 的 大 小 Q (在 这 个 例子 中 是 997 ) ， 则 散 列 值 为 
26535 % 997 = 613， 然 后 计算 文本 中 所 有 长 度 为 5 个 数字 的 子 字符 串 的 散 列 值 并 寻找 匹配 。 在 这 个 
例子 中 , 在 找到 613 的 匹配 之 前 , 得 到 的 散 列 值 分 别 为 508、201、715、971、442 和 929, 请 见 图 5.3.14。 


pat.charAt(j) 


j 01234 
2 6 5 3 5 %997= 613 
txt.charAt (i) 
i 0 1234 5 67 8 9101112131415 
3 141592653 5 89793 
0 3 14 1 5 %997= 508 
1 1 4 1 5 9 %997= 201 
2 4 1 5 9 2 %997=715 
3 1 5 9 2 6 %997 = 971 
4 5 9 2 6 5 %997= 442 
5 9 2 6 5 3 %997-929 匹配 
6 < 一 返回 1=6 2 6535%997-613 
图 5.3.14 Rabin-Karp 字符 串 查 找 算 法 的 基本 思想 
5.3.5.2 ”计算 散 列 函数 


对 于 5 位 的 数值 ， 只 需 使 用 int 值 即 可 


private long hash(String key, int M) 


完成 所 有 所 需 的 计算 。 但 如 果 M 是 100 或 者 
1000 怎么 办 ?这 里 使 用 的 是 Horner 方法， 
它 和 3.4 节 中 见 过 的 用 于 字符 串 和 其 他 多 值 
类 型 的 键 的 计算 方法 非常 相似 ,代码 如 下 面 


{ // 计算 key[0..M-1] 的 散 列 值 
onanhe Os 
om(GInte 0 <M 
h = (R* ho+ key.charAt(j)) % Qi 
return h; 


框 注 所 示 。 这 段 代码 计算 了 用 char 什 数 组 表 


示 的 R 进 制 的 M 位 数 的 散 列 函数 ， 所 需 时 间 
与 M 成 正比 。( 将 M 作 为 参数 传递 给 该 方法 ， 
这 样 就 可 以 将 它 同 时 用 于 模式 字符 串 和 正文 。 ) 对 于 这 个 数 中 的 每 一 位 数字 ， 将 散 列 值 乘 以 R， 加 
上 这 个 数字 ， 除 以 Q 并 取 其 余数 。 例 如 ,这样 计算 示例 模式 字符 串 散 列 值 的 过 程 如 图 5.3.15 所 示 。 
我 们 也 可 以 用 同样 的 方法 计算 文本 中 的 子 字 符 串 散 列 值 ， 但 这 样 一 来 字符 串 查 找 算法 的 成 本 就 将 是 
对 文本 中 的 每 个 字符 进行 乘法 、 加 法 和 取 余 计算 的 成 本 之 和 。 在 最 坏 情况 下 这 需要 NM 次 操作 ， 相 
对 于 暴力 子 字符 串 查 找 算 法 来 说 并 没有 任何 改进 。 


Horner 方 法 , 用 于 除 留 余数 法 计算 散 列 值 


pat.charAt(j) 


i 0 1 2 34 
2 6 5 3 5 
0 2 %997=2 R 2 
1 2 6 %997 = (2*10 + 6) % 997 = 26 
2 2 6 5 %997= (26*10 + 5) % 997 = 265 
3 2 6 5 3 %997= (265*10 + 3) % 997 = 659 
4 2 6 5 3 5 %997= (659*10 +5) % 997 = 613 


图 5.3.15 ”使 用 Horner 方法 计算 模式 字符 上 


的 散 列 值 
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5.3.5.3 ”关键 思想 

Rabin-Karp 算法 的 基础 是 对 于 所 有 位 置 1， 高 效 计算 文本 中 i+1 位 置 的 子 字符 串 散 列 值 。 这 可 
以 由 一 个 简单 的 数学 公式 得 到 。 我 们 用 4 表示 txt.charAt(i) ， 那 么 文本 txt 中 起 始 于 位 置 i 的 
含有 M 个 字符 的 子 字符 串 所 对 应 的 数 即 为 : 

XLR HR tt RR 
假设 已 知 h(x))=x; mod 0。 将 模式 字符 串 右 移 一 位 即 等 价 于 将 x; 替换 为 : 
xp=(x tiR" Rttiy 

即将 它 减 去 第 一 个 数字 的 值 ， 乘 以 R， 再 加 上 最 后 一 个 数字 的 值 。 现 在 ， 关 键 的 一 点 在 于 
不 需要 保存 这 些 数 的 值 ， 而 只 需要 保存 它们 除 以 0 之 后 的 余数 。 取 余 操 作 的 一 个 基本 性 质 是 如 
果 在 每 次 算术 操作 之 后 都 将 结果 除 以 0 并 取 余 ， 这 等 价 于 在 完成 了 所 有 算术 操作 之 后 再 将 最 后 
的 结果 除 以 0 并 取 余 。 曾 经 在 用 Horner 方法 (请 见 3.4.1.4 节 ) 实现 除 留 余数 法 时 利用 过 这 个 
性 质 。 这 么 做 的 结果 就 是 无 论 M 是 5、100 还 是 1000， 都 可 以 在 常数 时 间 内 高 效 地 不 断 向 右 一 
格 一 格 地 移动 。 
5.3.5.4 ”实现 


根据 以 上 讨论 可 以 立即 得 到 算法 5.8 中 对 该 i ... 234567 ... 

子 字符 串 查 找 算 法 的 实现 。 构 造 函 数 为 模式 字 当前 值 4 .11592 二 文本 
符 串 计算 了 散 列 值 patHash 并 在 变量 RM 中 保 新 值 1 5 92 6 
存 了 R2 mod oO 的 值 。hashSearch() 方法 开 4 1 5 9 ， 当 前 值 
头 计算 了 文本 的 前 M 个 字母 的 散 列 值 并 将 它 和 = 和 00 
模式 字符 串 的 散 列 值 进 行 比较 。 如 果 未 能 匹配 ， 1 5 9 2 减 去 第 一 个 数字 的 值 
它 将 会 在 文本 中 继续 前 进 ， 用 以 上 讨论 的 方法 ee ee 
计算 由 位 置 1 开始 的 MM 个 字符 的 散 列 值 ， 将 它 ee 
保存 在 txtHash 变量 中 并 将 每 个 新 的 散 列 值 和 1 5 9 2 6 新 值 

patHash 进行 比较 ， 请 见 图 5.3.16 和 图 5.3.17。 图 5.3.16 “Rabin-Karp 字符 串 查找 算法 中 的 关键 

(在 txtHash 的 计算 中 ， 额 外 加 上 了 一 个 2 来 计算 (在 文本 中 右 移 一 位 ) 


保证 所 有 的 数 均 为 正 ， 这 样 取 余 操 作 才能 够 得 
到 预期 的 结果 。 ) 
5.3.5.5 ”小 技巧 : 用 蒙特 卡 洛 法 验证 正确 性 

在 文本 txt 中 找到 散 列 值 与 模式 字符 串 相 匹配 的 一 个 M 个 字符 的 子 字符 串 之 后 ， 你 可 能 会 逐 
个 比较 它们 的 字符 以 确保 得 到 了 一 个 匹配 而 非 相 同 的 散 列 值 。 我 们 不 会 这 么 做 ， 因 为 这 需要 回 退 文 
本 指针 。 作 为 替代 ， 这 里 将 散 列 表 的 “规模 ”2 设 为 任意 大 的 一 个 值 ， 因 为 我 们 并 不 会 真 构造 一 张 
散 列表 而 只 是 希望 用 模式 字符 串 验 证 是 否 会 产生 冲突 。 我 们 会 取 一 个 大 于 10” 的 1ong 型 值 ， 使 得 
一 个 随机 键 的 散 列 值 与 模式 字符 串 冲突 的 概率 小 于 10“。 这 是 一 个 极 小 的 值 。 如 果 它 还 不 够 小 ， 你 
可 以 将 这 种 方法 运行 两 遍 ， 这 样 失败 的 几率 将 会 小 于 10“。 这 是 蒙特 卡 洛 算法 一 种 著名 早期 应 用 ， 
它 既 能 够 保证 运行 时 间 ， 失 败 的 概率 又 非常 小 。 检 查 匹配 的 其 他 方法 可 能 很 慢 ( 性 能 有 很 小 的 概率 
相当 于 暴力 算法 ) 但 能 够 确保 正确 性 。 这 种 算法 被 称 为 拉 斯 维 加 斯 算法 。 
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i 0 123456 7 8 9101112131415 
3 1415 9 26 5 3 5 8 9 7 9 3 

0 3 %997=3 2 

1 3 1 %997 = (3*10 + 1) % 997 = 31 

2 3 1 4 %997 = (31*10 + 4) % 997 = 314 

3 3 1 4 1 %997 = (314*10 + 1) % 997 = 150 

4 3 14 1 5 %997= (150*10 + 5) % 997 = 508 RM _R 

5 1 4 1 5 9 %997= ((508 + 3*(997 - 30)9x*1d + 9) % 997 = 201 

6 4 1 5 9 2 %997= ((201 + 1*(997 - 30))*10 + 2) % 997 = 715 

7 1 5 9 2 6 %997 = ((715 + 4*(997 - 30))*10 + 6) % 997 = 971 

8 5 9 2 6 5 %997 = ((971 + 1*(997 - 30))*10 + 5) % 997 = 442 匹配 
9 9 2 6 5 3 %997 = ((442 + 5*(997 - 30))*10 + 3) % 997 = 929 
10 -返回 i-M+1=6 2 6 5 3 5 %997= ((929 + 9*(997 - 30))*10 + 5) % 997 = 613 

到 5.3.17 ”Rabin-Karp 子 字符 串 查找 算法 举例 


算法 5.8 ”Rabin-Karp 指纹 字符 串 查找 算法 


public class RabinKarp 


{ 


private String pat; // 模式 字符 事 ( 仅 拉 斯 维 加 斯 算法 需要 ) 
private long patHash; // 模式 字符 串 的 散 列 值 
private int M; // 模式 字符 串 的 长 度 
private long Q; // 一 个 很 大 的 素数 
private int R = 256; // 字母 表 的 大 小 
private long RM; // RA(M-1) % Q 
public RabinKarp(String pat) 
{ 
this.pat = pat; // 保存 模式 字符 串 ( 仅 拉 斯 维 加 斯 算法 需要 ) 
this.M = pat.lengthO; 
Q = 1ongRandomPrime() ; // 请 见 练习 5$.3.33 
RM 二 45 
for (Cint 1 = 1; i <= M-1; i++) // 计算 RACM-1) % Q 
RM = CR * RM) % Qi; // 用 于 减 去 第 一 个 数字 时 的 计算 
patHash = hash(pat, M); 
} 


public boolean check(int 1) // 蒙特 卡 洛 算法 (请 见 正文 ) 
{ return true; } // 对 于 拉 斯 维 加 斯 算法 , 检查 模式 与 txXt(i. .i-M+1) 的 匹配 
private long hash(String key, int M) 
// 请 见 正文 
private int search(String txt) 
{ // 在 文本 中 查找 相等 的 散 列 值 
int N = txt.length() ; 
long txtHash = hash(txt, M); 
if (patHash == txtHash && ckeck(0)) return 0; // 一 开始 就 匹配 成 功 
for (Cint 1 = M; i < N; i++) 
{ // 减 去 第 一 个 数字 ， 加 上 最 后 一 个 数字 ， 再 次 检查 匹配 
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txtHash = (txtHash + Q - RM*txt.charAt(i-M) % Q) % Q; 
txtHash = (txtHash*R + txt.charAt(i)) % Q; 
if (patHash == txtHash) 


if (check(i - M+ 1)) return i -M+ 1; // 找到 匹配 


return N; // 未 找到 匹配 
} 
} 


该 字符 串 查 找 算 法 的 基础 是 散 列 。 它 在 构造 函数 中 计算 了 模式 字符 囊 的 散 列 值 并 在 文本 中 查找 该 散 
列 值 的 匹配 。 


命题 P。 使 用 蒙特 卡 洛 算 法 的 Rabin-Karp 子 字符 串 查找 算法 的 运行 时 间 是 线性 级 别 的 且 出 错 的 
概率 极 小 。 使 用 拉 斯 维 加 斯 算法 的 Rabin-Karp 子 字符 串 查 找 算法 能 够 保证 正确 性 且 性 能 极其 接 
近 线 性 级 别 。 


讨论 。 因 为 我 们 不 需要 实际 创建 一 张 散 列表 ， 使 用 非常 大 的 Q 几 乎 不 可 能 发 生 散 列 值 冲突 。 
Rabin 和 Karp 证 明了 只 要 选择 了 适当 的 Q 值 ， 随 机 字符 串 产 生 散 列 碰撞 的 概率 为 1/Q。 这 意味 
着 对 于 这 些 变量 实际 可 能 出 现 的 值 ， 字 符 串 不 匹配 时 散 列 值 也 不 会 匹配 ， 散 列 值 匹配 时 字符 串 
才 会 匹配 。 理 论 上 来 说 ， 文 本 中 的 某 个 子 字符 串 可 能 会 在 与 模式 不 匹配 的 情况 下 产生 散 列 冲突 ， 
但 在 实际 应 用 中 使 用 该 算法 寻找 匹配 是 可 靠 的 。 


如 果 你 对 概率 论 ( 或 者 我 们 使 用 的 随机 字符 串 模 型 以 及 生成 随机 数字 的 代码 ) 并 不 是 很 有 信心 ， 
那么 可 以 在 check 0) 方法 中 添加 检查 文本 子 字 符 串 和 模式 是 否 匹 配 的 代码 。 这 将 把 算法 5.8 变 成 拉 
斯 维 加 斯 版 本 〈 请 见 练习 5.3.12 ) 。 如 果 你 再 添加 一 个 方法 来 检查 这 段 代码 是 否 真 正 被 执行 过 ， 随 
着 时 间 的 推移 你 就 会 逐渐 相信 概率 论 的 证 明了 。 

Rabin-Karp 字符 串 查 找 算 法 也 称 为 指纹 字符 串 查找 算法 , 因为 它 只 用 了 极 少 量 信息 就 表示 了 ( 可 
能 非常 大 的 ) 模式 字符 串 并 在 文本 中 寻找 它 的 指纹 〈 散 列 值 ) 。 算 法 的 高 效 性 来 自 于 对 指纹 的 高 效 
计算 和 比较 。 


5.3.6 总结 
表 5.3.2 总 结 了 我 们 已 经 讨论 过 的 各 种 子 字符 串 查 找 算法 。 尽 管 常常 出 现 多 个 算法 都 能 完成 相 

同 的 任务 的 情况 , 但 它们 都 各 有 特点 : 暴力 查找 算法 的 实现 非常 简单 且 在 一 般 的 情况 下 都 工作 良好 ; 

(Java 的 String 类 型 的 indexOf(0) 方法 使 用 的 就 是 暴力 子 字符 串 查 找 算法 。 ) Knuth-Morris-Pratt 
算法 能 够 保证 线性 级 别 的 性 能 且 不 需要 在 正文 中 回 退 ; BoyerMoore 算法 的 性 能 在 一 般 情 况 下 都 是 亚 
线性 级 别 ( 可 能 是 线性 级 别 的 M 倍 ) ; Rabin-Karp 算法 是 线性 级 别 。 每 种 算法 也 各 有 缺点 : 暴力 查 
找 算法 所 需 的 时 间 可 能 和 MX 成 正比 ; Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 额外 的 内 存 
空间 ; Rabin-Karp 算法 的 内 循环 很 长 ( 若干 次 算术 运算 ， 而 其 他 算法 都 只 需要 比较 字符 ) 。 这 些 特点 
都 总 结 在 了 表 5.3.2 中 。 
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( 续 ) 
表 5.3.2 各 种 字符 串 查找 算法 的 实现 的 成 本 总 结 
操作 次 数 
算 法 版 本 文本 中 回 退 ”正确 性 ”额外 的 空间 需求 
M 最 环 情况 一 般 情况 站 了 
暴力 算法 一 MN LIN 是 是 | 
完整 的 DFA 
5 2N 1.1N 否 是 MR 
Knuth-Morris-Pratt (算法 5.6) sa 
算法 仅 构造 不 匹配 的 状态 转换 3N 1.1N 否 是 M 
完整 版 本 3N NM 是 是 R 
Boyer-Moore 算法 A MN N/M 是 是 R 
蒙特 卡 洛 算法 ge 
y ZN 7N 否 三 1 
Rabin-Karp 算法 ” (算法 5.8) 征 
拉 斯 维 加 斯 算法 ZN ZN 是 是 1 


* 概率 保证 ， 需 要 使 用 均匀 和 独立 的 散 列 函 数 。 


问 “ 子 字符 串 查找 问题 看 起 来 并 没有 什么 实际 
答 这 个 ……Boyer-Moore 算法 能 够 将 速度 提高 W 倍 ， 在 实际 应 用 当中 还 是 相当 强大 的 。 另 外 ， 能 够 处 


实际 应 用 之 外 ， 这 些 算法 也 为 我 们 介绍 了 


] 处 ,我们 真 的 需要 理解 这 些 复杂 的 算法 吗 ? 


理 流 输入 (无需 回 退 ) 的 性 质 也 给 KMP 算法 和 Rabin-Karp 算法 带 来 了 许多 应 用 。 除 了 这 些 直 接 的 


象 自动 机 和 随机 性 在 算法 设计 领域 的 应 


问 为 什么 不 能 通过 将 所 有 字符 都 转换 为 二 进 制 数 并 处 理 二 进 制 的 文本 来 简化 问题 呢 ? 


780| 答 这 种 方法 并 没有 什么 效果 ， 
图 练习 

5.3.1 使 用 算法 5.6 相同 的 API， 开 发 一 个 暴力 子 字符 

5.3.2 
式 画 出 DFA。 

5.8:3 
的 样式 画 出 DFA。 

5.3.4 
所 需 的 字符 比较 次 数 。 

5.3:5 
化 版 本 ) 。 

5:3.6 

5.3.7 ”为 暴力 子 字符 串 查找 算法 的 实现 添加 一 个 count 0 方法， 统计 模式 字符 
再 添加 一 个 searchA11 0) 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.8 为 KMP 类 添加 一 个 count0) 方法 来 统计 模式 字符 串 的 在 文本 


因为 字符 的 边界 处 可 能 产生 错误 的 匹配 。 


串 查 找 算 法 的 实现 Brute。 


在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 ABRACADABRA 的 dfar]r] 数 组 ,按照 正文 中 


O 


在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 A A A A A A A A A 的 dfa[][] 数组 ,按照 正 文中 的 样 


编写 一 个 方法 ,接受 一 个 字符 串 txt 和 一 个 整数 M 作为 参数 ， 返 回 字 符 串 中 M 个 连续 的 空格 第 一 
次 出 现 的 位 置 ， 如 果 不 存在 则 返回 txt.1ength。 佑 计 你 的 方法 在 一 般 的 文本 中 和 在 最 坏 情况 下 


开发 一 个 暴力 子 字符 串 查 找 算法 的 实现 BruteForceRL， 从 右 向 左 匹配 模式 字符 串 〈 算 法 5.7 的 简 


给 出 算法 5.7 的 构造 函数 计算 模式 A B R A C A D A B R A 所 得 到 的 right[] 数组 。 


searchA110) 方法 来 打印 出 所 有 出 现 的 位 置 。 


在 文本 中 的 出 现 次 数 ， 


PP 的 出 现 次 数 ， 再 添加 一 个 
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5.3.9 为 BoyerMoore 类 添加 一 个 count 0 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA110Q 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.10 为 RabinKarp 类 添加 一 个 count 0) 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA110Q 方法 来 打印 出 所 有 出 现 的 位 置 。 

5.3.11 为 算法 5.7 实现 的 Boyer-Moore 算法 构造 一 个 最 坏 情况 下 的 输入 (说 明 它 的 运行 时 间 不 是 线性 级 
别 的 ) 。 

5.3.12 为 RabinKarp 类 (算法 5.8 ) 的 checkQ 〇 方法 中 添加 代码 ,将 它 变 为 使 用 拉 斯 维 加 斯 算法 的 版 本 ( 检 
查 给 定位 置 的 文本 和 模式 字符 串 是 否 匹 配 ) 。 


5.3.13 在 算法 5.7 实现 的 Boyer-Moore 算法 中 , 证 明 当 c 为 模式 字符 串 中 的 最 后 一 个 字符 时 ， 能 够 将 1781 


right[c] 设 为 c 在 模式 字符 串 中 的 倒数 第 二 次 出 现 的 位 置 。 
5.3.14 ”使 用 char[] 代替 String 来 表示 文本 和 模式 字符 串 ， 给 出 本 节 中 的 各 种 子 字符 串 查找 算法 的 实现 。 
5.3.15 ”设计 一 个 从 右 向 左 扫描 模式 字符 串 的 暴力 子 字符 串 查找 算法 。 
5.3.16 ”按照 正文 中 轨迹 的 样式 显示 暴力 子 字符 串 查 找 算 法 在 处 理 以 下 模式 和 文本 时 的 轨迹 。 
a. 模式 : AAAAAAAB 文本 : AAAAAAAAAAAAAAAAAAAAAAAAB 
b. 模式 ABABABAB 文本 : ABABABABAABABABABAAAAAAAA 
5.3.17 ”为 以 下 模式 字符 串 画 出 KMP 算法 的 DFA。 
a. AAAAAAB 
b. AACAAAB 
c. ABABABAB 
d. ABAABAAABAAAB 
e. ABAABCABAABCB 
5.3.18 ”假设 模式 字符 串 和 文本 都 是 由 大 小 为 R (不 小 于 2 ) 的 字母 表 随 机 生成 的 字符 串 。 证 明 暴 力 算法 
预期 的 字符 比较 次 数 为 (WAMHDU-R -RD < 2(WW_M+1)。 
5.3.19 构造 一 个 使 Boyer-Moore 算法 ( 仅 使 用 对 不 匹配 字符 的 启发 式 查 找 ) 性 能 低下 的 样 例 输 入 。 
5.3.20 如何 修 改 Rabin-Karp 算法 才能 够 判定 上 个 模式 〈 假设 它 们 的 长 度 全 部 相同 ) 中 的 任意 子 集 出 现 
在 文本 之 中 ? 
解答 : 计算 所 有 上 个 模式 字符 串 的 散 列 值 并 将 散 列 值 保存 在 一 个 StringSET( 请 见 练习 5.2.6 ) 对 象 中 。 


5.3.21 ”如 何 修改 Rabin-Karp 算法 来 查找 中 间 字 符 为 “通配符 ”( 能 够 匹配 任意 字符 的 符号 ) 的 模式 字 ”|782 


符 串 ? 
5.3.22 ”如 何 修改 Rabin-Karp 算法 来 在 Wx N 的 文本 中 查找 一 个 囊 x 亚 的 模式 ? 
5.3.23 ”编写 一 个 程序 ， 一 次 读 入 字符 串 中 的 一 个 字符 并 立即 判断 当前 字符 串 是 否 为 回 文 。 提 示 : 使 用 


Rabin-Karp 的 散 列 思想 。 783 


图 提高 是 


5.3.24 找 出 所 有 子 字 符 串 。 为 我 们 学 习 过 的 4 种 字符 串 查 找 算法 添加 一 个 findA110) 方法 ， 返 回 一 个 
Iterable<Integer> 对 象 使 得 用 例 能 够 遍历 文本 中 模式 字符 串 出 现 的 所 有 位 置 。 

5.3.25 流 输入 。 为 KMP 类 添加 一 个 search 0) 方法 ， 接 受 一 个 In 类 型 的 变量 作为 参数 ， 在 不 使 用 其 
他 任何 实例 变量 的 条 件 下 在 指定 的 输入 流 中 查找 模式 字符 串 。 为 RabinKarp 类 也 添加 一 个 类 似 
的 方法 。 
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5.3.26 


5.3.27 


5.3.28 


5.3.29 


5.3.30 


5.3.31 


5.3.32 
5.3.33 


5.3.34 


5.3.35 


回环 变 位 。 编 写 一 个 程序 ， 对 于 给 定 的 两 个 字符 串 ， 检 查 它 们 是 否 互 为 对 方 的 回环 变 位 。 例 如 


example 和 ampleex。 


串联 重复 查找 。 在 字符 串 s 中 ， 基 础 字符 串 b 的 串联 重复 就 是 连续 将 b 至 少 习 
的 一 个 子 字符 串 。 开 发 并 实现 一 个 线性 时 间 的 子 字 符 串 查找 算法 ， 接 受 给 定 的 字符 是 


E 复 两 毅 (无 重 琶 


) 
和 b 和 s， 返 


回 s 中 的 最 长 串联 重复 的 起 始 位 置 。 例 如 ， 当 b 为 “abcad” 而 s 为 “abcabcababcababcababcab” 


时 ， 你 的 程序 应 该 返回 3。 


暴力 子 字 符 串 查找 算法 中 的 缓冲 区 。 向 你 为 练习 5.3.1 给 出 的 解答 中 添加 一 个 search() 方法 ， 


接受 一 个 (In 类 型 的 ) 输入 流 作 为 参数 并 在 给 定 的 输入 流 查 找 模 式 字符 串 。 注 意 : 


你 需要 维护 


一 个 至 少 能 够 保存 输入 流 的 前 M 个 字符 的 缓冲 区 。 面 临 的 挑战 是 要 编写 高 效 的 代码 为 任意 输入 


流 初始 化 、 更 新 和 清理 缓冲 区 。 


Boyer-Moore 算法 中 的 缓冲 区 。 为 算法 5.7 添加 一 个 search0) 方法 ， 接 受 一 个 (In 类 型 的 ) 输 


入 流 作为 参数 并 在 给 定 的 输入 流 中 查找 模式 字符 串 。 


二 维 查找 。 实 现 另 一 个 版 本 的 Rabin-Karp 算法 ， 在 二 维 文本 中 查找 模式 ， 假 设 模式 和 文本 都 是 


由 字符 组 成 的 矩形 。 


随机 模式 。 在 一 段 给 定 的 文本 中 查找 一 个 长 度 为 100 的 随机 模式 字符 串 需 


答 : 一 次 也 不 用 。 以 下 方法 就 可 以 有 效 的 完成 这 个 任务 : 


public boolean search(char[] txt) 
{ return false; } 


因为 一 个 长 度 为 100 的 随机 模式 字符 串 出 现在 任何 文本 中 的 概率 之 低 足 以 让 我 们 认为 它 是 0。 
不 同 的 子 字符 串 。 使 用 Rabin-Karp 算法 的 思想 完成 练习 5.2.14。 


随机 素数 。 为 RabinKarp 类 (算法 5.8) 实现 
longRandomPrime() 方法 。 提 示 : 随机 的 n 位 数 
字 是 素数 的 概率 与 1/n 成 正比 。 
直线 型 代码 。 "Java 的 虚拟 机 ( 以 及 计算 机 上 的 汇 
编 语 言 ) 支持 一 种 goto 指令 ， 它 使 我 们 能 够 将 查 
找 “ 般 入 ”到 机 器 代 码 中 ， 如 下 方 的 程序 所 示 ( 这 
段 程序 等 价 于 在 KMP 算法 中 用 KMPdfa 数组 模拟 
模式 的 DFA 的 和 运行， 但 效率 要 高 的 多 ) 。 为 了 避 
免 在 每 次 增 大 1i 时 检查 是 否 已 经 到 达 文 本 的 结尾 ， 

假设 文本 的 最 后 M 个 字符 就 是 模式 字符 串 本 身 。 


Te es ly 


: i+t+; 
于 
et [nal el 
Eafe (tts [eol el 
fb [nl sl 
tt ln 
a Gm 


return i-8; 


E25 


goto 
goto 
goto 
goto 
goto 
goto 


sm; 
s0; 
s0; 
SZ 
s0; 
S3; 


处 理 模 式 字符 串 A A B A A A 的 直线 型 代码 


在 这 段 代码 中 goto 的 标签 与 dfa[] 数组 完全 一 一 对 应 。 编 写 一 个 静态 方法 ， 接 受 一 个 模式 作为 


参数 ， 产 生 一 段 类 似 的 直线 型 代码 来 查找 给 定 的 模式 。 


二 进 制 字符 串 中 的 Boyer-Moore 算法 。 启 发 式 处 理 不 匹配 的 字符 对 于 二 进 制 字符 串 并 没 


用 ， 因 为 匹配 失败 的 可 能 字符 只 有 两 种 ( 而 且 它们 都 非常 可 能 出 现在 模式 字符 


什么 作 


中 ) 。 编 写 一 个 


适用 于 二 进 制 字符 串 的 子 字 符 串 查找 类 ， 它 应 该 能 够 将 多 个 位 组 合成 可 以 被 算法 5.7 处 理 的 “ 字 
符 ”。 注 意 : 如 果 你 每 次 都 取 4b 位 ， 那么 需要 一 个 含有 2 个 元 素 的 right[] 数组 。2 的 值 不 能 
大 ， 以 保证 right[] 数组 不 会 太 大 ; 也 不 能 太 小 ， 以 使 文本 中 大 多 数 b 位 字符 不 太 可 能 出 现在 模 
式 中 一 一 模式 中 含有 M-b+1 种 不 同 的 5 位 字符 ( 从 第 1 到 第 M-b+1 位 的 每 个 位 置 上 各 有 一 个 ) ， 


中 译 法 参考 《代码 大 全 》, 第 二 版 第 14 章 。 一 一 译 者 注 
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因此 W-2+l 远 小 于 2”。 例 如， 如 果 你 选择 的 5 使 得 2 约 等 于 lg(4M)， 那 么 right[] 数组 中 超过 
四 分 之 三 的 元 素 的 值 都 将 是 -1。 但 不 要 让 4b 小 于 M2， 否 则 当 模 式 字 符 串 横 跨 两 个 b 位 字符 时 你 
完全 可 能 会 漏 掉 它 。 785 


图 实验 是 


5.3.36 ”随机 文本 。 编 写 一 个 程序 ， 接 受 整 型 参数 M 和 AN， 生成 一 个 长 度 为 N 的 随机 二 进 制 文本 字符 串 ， 
计算 该 字符 串 的 最 后 M 位 在 整个 字符 串 中 的 出 现 次 数 。 注 意 : 不 同 的 M 值 适用 的 方法 可 能 不 同 。 
5.3.37 ”随机 文本 的 KMP 算法 。 编 写 一 个 用 例 ， 接 受 整 型 参数 M、N 和 TT 并 运行 以 下 实验 T 遍 : 随机 生 
成 一 个 长 度 为 M 的 模式 字符 串 和 一 段 长 度 为 N 的 文本 ,记录 使 用 KMP 算法 在 文本 中 查找 该 模式 
时 比较 字符 的 次 数 。 修 改 KMP 类 的 实现 来 记录 比较 次 数 并 打印 出 重复 T 次 之 后 的 平均 比较 次 数 。 
5.3.38 ”随机 文本 的 Boyer-Moore 算法 。 对 于 Boyer-Moore 算法 完成 上 一 道 练 习 。 
5.3.39 运行 时 间 。 编 写 一 段 程序 ， 用 本 节 学 习 的 4 种 算法 在 《双城记 》 (tale.txt ) 中 查找 以 下 字符 串 
记录 时 间 : 
it is a far far better thing that i do than i have ever done 


讨论 你 的 结果 在 何 种 程度 上 验证 了 正文 对 这 几 种 算法 的 性 能 猜想 786 


有 imo 
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5.4 正则 表达 式 


在 许多 应 用 程序 中 ， 我 们 在 查找 子 字符 串 时 并 没有 被 查找 模式 的 完整 信息 。 文 本 编辑 器 的 用 户 
可 能 希望 仅 指 定 模式 的 一 部 分 ， 或 是 指定 某 种 能 够 匹配 若干 个 不 同 单词 的 模式 ， 或 是 指定 几 种 可 以 
任意 匹配 的 不 同 模式 。 例如， 生物 学 家 可 能 希望 在 基因 组 序列 中 寻找 满足 特定 条 件 的 基因 。 本 节 中 ， 
我 们 将 会 学 习 如 何 高 效 地 完成 这 种 类 型 的 模式 匹配 。 

5.3 节 中 的 算法 完全 依赖 指定 完整 的 模式 字符 串 ， 因 此 需要 寻找 不 同 的 方法 。 本 节 将 会 学 习 的 
一 些 基本 工具 能 够 构造 一 个 非常 强大 的 字符 串 查 找 程序 ， 它 能 够 在 长 度 为 N 的 文本 中 匹配 长 度 为 M 
的 复杂 模式 。 在 最 坏 情况 下 ， 它 所 需 的 时 间 和 MN 成 正比 ， 而 在 一 般 的 应 用 程序 中 还 会 快 得 多 。 

首先 ， 我 们 需要 一 种 描述 模式 的 方法 ， 即 一 种 严谨 的 说 明 上 述 “ 部 分 子 字 符 串 的 查找 问题 ”的 
方式 。 这 份 说 明 必 须 含 有 一 些 比 5.3 节 中 使 用 的 “检查 文本 字符 串 的 第 i 个 字符 和 模式 字符 串 的 第 
j 个 字符 是 否 匹 配 ” 更 加 强大 的 原始 操作 。 为 此 ， 我 们 使 用 正则 表达 式 。 它 能 够 用 自然 、 简 单 而 强 
大 的 3 种 操作 组 合 来 描述 模式 。 
程序 员 使 用 正则 表达 式 的 历史 已 经 有 数 十 年 了 。 随 着 网 络 搜索 的 爆炸 性 增长 ， 它 们 的 使 用 变 得 
更 加 广泛 。 本 节 开 始 会 讨论 几 个 应 用 程序 。 这 不 仅 是 为 了 让 你 感受 它 的 用 途 和 功能 ， 也 是 为 了 让 你 
对 它 的 基本 性 质 更 加 熟悉 。 

和 5.3 节 中 的 KMP 算法 一 样 ， 本 节 也 将 使 用 一 种 能 够 在 文本 中 查找 模式 的 抽象 自动 机 来 描述 
这 3 种 基本 的 操作 。 模 式 匹配 算法 同样 会 构造 一 个 这 样 的 自动 机 并 模拟 它 的 运行 。 当 然 ， 这 种 模式 
匹配 自动 机 比 KMP 算法 的 DFA 更 加 复杂 ， 但 不 会 超出 你 的 想象 。 

你 将 会 看 到 ， 我 们 为 模式 匹配 问题 给 出 的 解答 和 计算 机 科学 中 最 基础 的 问题 有 着 紧密 的 联系 。 
例如 ， 我 们 在 程序 中 用 于 完成 给 定 模式 下 的 字符 串 查 找 任务 的 算法 和 Java 系统 中 用 来 将 Java 程序 
转化 为 计算 机 上 的 机 器 语言 的 算法 很 相似 。 我 们 还 会 遇 到 非 确 定性 这 个 概念 。 它 在 人 们 对 高 效 算法 
的 追求 中 起 到 了 关键 的 作用 (请 见 第 6 章 ) 。 


5.4.1 使 用 正则 表达 式 描 述 模式 

我 们 的 重点 是 模式 的 描述 ， 它 由 3 种 基本 操作 和 作为 操作 数 的 字符 组 成 。 这 里 ， 我 们 用 语言 指 
代 一 个 字符 串 的 集合 〈 可 能 是 无 限 的 ) ， 用 模式 指 代 一 种 语言 的 详细 说 明 。 我 们 将 要 学 习 的 规则 和 
大 家 都 很 熟悉 的 算术 表达 式 中 的 规则 十 分 类 似 。 
5.4.1.1 ”连接 操作 

第 一 种 基本 操作 就 是 5.3 节 中 使 用 过 的 连接 操作 。 当 我 们 写 出 AB 时 ， 就 指定 了 一 种 语言 {AB}。 
它 含 有 一 个 由 两 个 字符 组 成 的 字符 串 ， 由 A 和 B 连接 而 成 。 
5.4.1.2 或 操作 
第 二 种 基本 操作 可 以 在 模式 中 指定 多 种 可 能 的 匹配 。 如 果 我 们 在 两 种 选择 之 间 指 定 了 一 个 或 运 
算 符 ， 那 么 它们 都 将 属于 同一 种 语言 。 我 们 用 竖 线 符号 “|” 表 示 这 个 操作 。 例 如 ，AI1B 指定 的 语言 
是 {A,B}，AlEIIIOIU 指定 的 语言 是 {A,E,I,0,U}。 连 接 操 作 的 优先 级 高 于 或 操作 ， 因 此 AB1BCD 
指定 的 语言 是 {AB, BCD}。 
5.4.1.3” 闭 包 操 作 
第 三 种 基本 操作 可 以 将 模式 的 部 分 重复 任意 的 次 数 。 模 式 的 闭 包 是 由 将 模式 和 自身 连接 任意 多 
次 (包括 零 次 ) 而 得 到 的 所 有 字符 串 所 组 成 的 语言 。 我 们 将 “*” 标 记 在 需要 被 重复 的 模式 之 后 ， 
以 表示 闭 包 。 闭 包 操作 的 优先 级 高 于 连接 操作 ， 因 此 AB* 指定 的 语言 由 一 个 A 和 0 个 或 多 个 B 的 字 
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符 串 组 成 ， 而 A*B 指定 的 语言 由 0 个 或 多 个 A 和 一 个 B 的 字符 串 组 成 。 空 字符 串 的 记号 是 E， 它 存 
在 于 所 有 文本 字符 串 之 中 (包括 A* ) 。 
5.4.1.4 ”括号 

我 们 使 用 括号 来 改变 默认 的 优先 级 顺序 。 例 如 ，CCAC1B)D 指定 的 语言 是 {CACD, CBD}，(A|O 
(CCB1C)D) 指定 的 语言 是 {ABD,CBD,ACD,CCD}，(AB)* 指定 的 语言 是 由 将 AB 连接 任意 多 次 得 到 的 
所 有 字符 串 和 空 字符 串 组 成 的 {€,AB,ABAB,...} 

这 些 简单 的 例子 已 经 可 以 写 出 虽然 复杂 但 却 清晰 而 完整 的 描述 某 种 语言 的 正则 表达 式 了 (示例 
请 见 表 5.4.1 ) 。 某 些 语言 可 能 可 以 用 其 他 方式 简单 表述 ， 但 找到 这 些 简单 的 方法 可 能 会 比较 困难 。 
例如 ， 表 格 的 最 后 一 行 中 的 正则 表达 式 指定 的 就 是 (A1B)* 的 一 个 只 含有 偶数 个 B 的 子 旨 


7 


o 


表 5.4.1 正则 表达 式 举 例 


正则 表达 式 匹配 的 字符 串 不 匹配 的 字符 串 
(AlB) CCID) AC AD BC BD 其 他 所 有 字符 串 
ACB|1C)*D AD ABD ACD ABCCBD BCD ADD ABCBC 
Ax | (A*BA*BA*)* AAA BBAABB BABAAA ABA BBB BABBAAA 789 


正则 表达 式 都 是 非常 简单 的 形式 语言 对 象 ， 甚 至 比 你 在 小 学 里 学 到 的 算术 表达 式 更 简单 。 我 们 
将 会 利用 它 的 简洁 性 开发 小 巧 而 高 效 的 算法 来 处 理 它们 。 首 先 给 出 如 下 正式 定义 。 


定义 。 一 个 正则 表达 式 可 以 是 : 

口 空 字符 串 €; 

口 单个 字符 ; 

口 包含 在 括号 中 的 另 一 个 正则 表达 式 ，; 

口 两 个 或 多 个 连接 起 来 的 正则 表达 式 ; 

口 由 或 运算 符 分 隔 的 两 个 或 多 个 正则 表达 式 ; 
口 由 闭 包 运算 符 标 记 的 一 个 正则 表达 式 。 


这 上段 定义 描述 了 正则 表达 式 的 语法 ， 说 明了 怎样 才 是 一 个 合法 的 正则 表达 式 。 在 本 节 中 对 给 定 
正则 表达 式 的 非 形 式 化 的 描述 是 它 的 语义 。 作 为 复习 ， 我 们 要 继续 在 形式 定义 中 对 它们 进行 总 结 。 


定义 〈 续 ) 。 每 个 正则 表达 式 表示 的 都 是 一 个 字符 串 的 集合 ， 它 们 的 定义 如 下 所 述 。 

口 空 正则 表达 式 表 示 的 字符 串 的 集合 为 空 ， 含有 0 个 元 素 。 

口 一 个 字符 表示 的 字符 串 的 集合 含有 一 个 元 素 ， 即 该 字符 本 身 。 

口 一 个 由 括号 和 包含 在 其 中 的 正则 表达 式 组 成 的 正则 表达 式 表示 的 字符 串 的 集合 与 括号 内 

的 正则 表达 式 相同 。 

口 由 两 个 正则 表达 式 连接 起 来 的 正则 表达 式 表 示 的 字符 串 的 集合 为 这 两 个 正则 表达 式 分 别 

表示 的 字符 串 集 合 的 又 乘 。( 按照 正则 表达 式 中 指定 的 顺序 ， 由 一 个 字符 串 集 合 中 的 元 
素 和 另 一 个 字符 串 集 合 中 的 元 素 相 连接 所 能 够 组 合 而 成 的 所 有 字符 串 。 ) 

口 由 或 运算 符 连 接 的 两 个 正则 表达 式 所 表示 的 字符 串 的 集合 为 两 个 正则 表达 式 所 分 别 表示 
的 字符 串 集合 的 并 集 。 
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口 由 一 个 正则 表达 式 的 闭 包 所 表示 的 字符 串 的 集合 由 E( 空 字符 串 ) 或 将 被 修饰 的 正则 表 
达 式 所 表示 的 字符 串 集 合 重复 任意 次 所 得 到 的 所 有 字符 串 所 组 成 。 


一 般 来 说 ， 给 定 正则 表达 式 所 描述 的 语言 可 能 非常 庞大 ， 其 至 是 无 限 的 。 描 述 一 种 语言 可 以 有 
许多 种 不 同 的 方法 ， 我 们 必须 尝试 给 出 最 简洁 的 模式 ， 就 像 在 不 断 地 尝试 写 出 简洁 的 程序 和 实现 高 
效 的 算法 一 样 。 


5.4.2 ” 缩 略 写 ; 
一 般 的 应 用 程序 都 在 基本 规则 的 基础 上 增加 了 各 种 额外 的 规则 ， 以 力求 简洁 地 描述 实际 应 用 中 
所 需要 的 语言 。 从 理论 角度 来 看 ， 它 们 都 只 是 涉及 多 个 操作 数 的 一 系列 操作 的 缩 略 写法 ; 从 实际 角 
度 来 看 ， 它 们 是 对 基本 操作 的 实用 扩展 ， 以 便 能 够 写 出 小 巧 的 模式 。 
5.4.2.1 字符 集 描述 符 
只 用 一 个 或 几 个 字符 来 直接 表示 一 个 字符 集 时 常 能 够 带 来 方便 。 点 “.” 是 一 个 能 够 表示 任意 
字符 的 通配符 。 包 含 在 方 括号 中 的 一 系列 字符 表示 这 些 字符 中 的 任意 一 个 。 这 一 系列 字符 可 以 由 一 
个 范围 来 表示 。 如 果 开 头 字符 为 “^”， 这 个 方 括号 表示 的 就 是 任意 非 该 括号 内 的 字符 。 这 些 记 法 
都 是 一 系列 或 操作 的 简写 ， 请 见 表 5.4.2。 


表 5.4.2 ”字符 集 描 述 符 


名 称 记 法 举 例 
通配符 AB 
指定 的 集合 包含 在 [] 中 的 字符 [AEIOU]* 
范围 集合 包含 在 [] 中 ， 由 “-” 分 隔 [A-Z] [0-9] 
补 集 包含 在 口中 ， 首 字母 为 “^” [^AEIOU]* 


5.4.2.2” 闭 包 的 简写 

闭 包 运 算 符 表示 将 它 的 操作 数 复制 任意 多 次 。 在 实际 应 用 中 ， 我 们 希望 能 够 灵活 指定 重复 的 次 
数 , 或 者 是 次 数 的 范围 。 我 们 用 “+”( 加 号 ) 表示 至 少 复制 一 次 ,“?”( 问号 ) 表示 重复 0 次 或 1 次 ， 
用 写 在 “{}”( 花 括号 ) 内 的 数 或 者 范围 来 指定 重复 的 次 数 。 和 刚才 一 样 ， 这 些 记 法 也 是 一 系列 基 
本 的 连接 、 或 和 闭 包 操作 的 简写 ， 请 见 表 5.4.3。 


表 5.4.3 ” 闭 包 的 简写 〈 指 定 操作 数 的 重复 次 数 ) 


选 项 记 法 举 例 原始 写法 语言 中 的 字符 串 。 不 在 语言 中 的 字符 串 
至 少 重 复 1 次 生 (AB)+ (AB) (AB)* AB ABABAB € BBBAAA 
重复 0 或 1 次 ? (AB)? EIAB € AB 所 有 其 他 字符 串 
重复 指定 次 数 由 全 指 定 次 数 。 (AB) {3} CAB) (AB) (AB) ABABAB 所 有 其 他 字符 串 
重复 指定 范围 的 次 数 。 由 全 指定 范围 {1= EA )|1CAB) AB ABAB 所 有 其 他 字符 串 


5.4.2.3” 转 义 序列 

某 些 字符 ， 例 如“^”、“.”、“”、“*”、“(“ 和 ”) ”， 都 是 用 来 构造 正则 表达 式 的 元 字 
符 。 我 们 使 用 以 反 斜 杠 开头 的 转 义 序列 来 将 元 字符 和 字母 表 中 的 字符 区 别 开 来 。 一 个 转 义 序列 可 以 
是 一 个 “\” 加 上 单个 元 字符 ( 这 就 表示 这 个 字符 本 身 ) 。 例 如 ， 从 ”表示 的 就 是 “”。 其 他 转 义 
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序列 表示 了 特殊 字符 和 空白 字符 。 例 如 ，“W” 表 示 一 个 制 表 符 ，“wn” 表 示 一 个 换行 符 ，“\s” 表 


示 任 意 空 白字 符 。 791 


5.4.3 ”正则 表达 式 的 实际 应 用 

实际 应 用 已 经 证 明了 正则 表达 式 善 于 描述 与 语言 有 关 的 内 容 。 因 此 ， 正 则 表达 式 使 用 广泛 ， 这 
方面 的 研究 也 比较 深入 。 为 了 让 你 能 在 熟悉 正则 表达 式 的 同时 向 你 展示 一 些 它 的 用 途 ， 在 讨论 正则 
表达 式 的 模式 匹配 算法 之 前 先 给 出 一 些 实际 应 用 的 例子 。 正 则 表达 式 在 计算 机 科学 理论 中 也 起 到 了 
重要 的 作用 。 在 本 书 中 完整 说 明 它 的 应 用 范围 不 切实 际 ， 但 会 在 适当 的 地 方 提 到 相关 的 理论 成 果 。 
5.4.3.1 子 字 符 串 查找 

我 们 的 总 体 目标 是 开发 一 种 算法 ， 能 够 判定 给 定子 字符 串 是 否 包 含 在 给 定 正则 表达 式 所 描述 的 
字符 串 集 合 之 中 。 如 果 文 本 包含 在 模式 所 描述 的 语言 之 中 ， 就 称 文本 和 模式 相 匹配 。 正 则 表达 式 的 
模式 匹配 一 般 化 了 5.3 节 中 的 子 字 符 串 查找 问题 。 准 确 地 说 ， 要 在 一 段 文 本 txt 中 查找 一 个 子 字 符 
串 pat， 就 是 检查 txt 是 否 存 在 于 模式 “.*pat.*” 所 描述 的 语言 之 中 。 
5.4.3.2 ”合法 性 检查 

在 使 用 互联 网 时 ， 你 常常 会 遇 到 正则 表达 式 。 当 你 在 某 个 商业 网 站 上 输入 一 个 日 期 或 是 账号 
时 ,输入 处 理 程序 会 检查 输入 的 格式 是 否 正确 。 进 行 这 类 检查 的 一 种 方式 是 用 代码 检查 所 有 可 能 出 
现 的 情况 : 如 果 你 应 该 输入 一 个 金额 ( 美元) ， 代 码 就 会 检查 第 一 个 字符 是 否 是 “$”， 而 且 “$” 
之 后 的 字符 是 否 是 一 组 数字 ， 等 等 。 更 好 的 办 法 是 定义 一 个 正则 表达 式 来 描述 所 有 合法 的 输入 。 之 
后 ,检查 用 户 的 输入 是 否 合法 就 完全 是 模式 匹配 问题 了 : 输入 包含 在 正则 表达 式 所 描述 的 语言 之 中 
吗 ? 随 着 这 种 检查 的 广泛 应 用 ， 使 用 正则 表达 式 进行 常见 检查 的 库 在 互联 网 上 已 经 随处 可 见 ， 请 见 
表 5.4.4。 一般 来 说 ， 相 比 一 个 能 够 检查 所 有 情况 的 程序 ， 正 则 表达 式 是 对 所 有 有 效 字符 串 的 集合 更 
加 准确 和 精炼 的 表达 。 


表 5.4.4 正则 表达 式 的 典型 应 用 简化 版 本 ) 


应 用 场景 正则 表达 式 匹 配 
字符 串 查找 .xNEEDLE .* A HAYSTACK NEEDLE IN 
电话 号 码 \([0-9] {3}\)\ [0-9] {3}-[0-9] {4} (800) 867-5309 
Java 标识 符 [$_A-Za-z] [$_A-Za-z0-9]* Pattern_Matcher 
基因 组 gcg(cgglagg)*ctg gcgaggaggcggcggctg 
电子 邮件 地 址 [a-z]+@([a-z]+\.)+(Cedu|com) rs@cs.princeton.edu 792 
5.4.3.3 ”程序 员 的 工具 箱 
正则 表达 式 模式 匹配 的 起 源 是 Unix 的 命令 grep， 它 会 打印 出 和 给 定 正则 表达 式 匹 配 的 所 有 输 


入 行 。 这 个 工具 是 数 代 程 序 员 的 无 价 之 宝 ， 而 正则 表达 式 也 已 经 被 内 置 于 许多 现代 编程 系统 之 中 ， 
从 awk 和 emacs， 到 Perl、Python 和 Javascript。 例 如 ， 某 个 目录 中 含有 许多 .java 文件 ， 而 你 希望 
知道 哪些 文件 使 用 了 StdIn。 这 条 命令 可 以 很 快 给 出 答案 : 


% grep StdIn *.]java 
它 会 打印 出 每 个 文件 中 与 “.*StdIn.*” 匹 配 的 每 一 行 代 码 。 
5.4.3.4 ”基因 组 
生物 学 家 也 会 使 用 正则 表达 式 来 研究 重要 的 科学 问题 。 例 如 ， 人 类 的 基因 序列 的 某 个 区 域 可 以 
j 正 则 表达 式 gcg (cgg)*ctg 描述 ， 其 中 模式 cgg 的 重复 次 数 在 不 同 的 个 体 之 间 有 很 大 区 别 。 人 们 
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已 知 某 种 能 够 造成 智力 障碍 和 其 他 一 些 症状 的 基因 疾病 和 该 模式 的 高 重复 次 数 有 关 。 
5.4.3.5 ”搜索 

互联 网 搜索 引擎 都 支持 正则 表达 式 ， 但 可 能 不 是 非常 完整 。 一 般 来 说 ， 如 果 你 希望 通过 “|” 指 
定 其 他 的 匹配 模式 或 者 通过 “*” 产 生 重 复 ， 它 都 能 做 到 。 
5.4.3.6 ”正则 表达 式 的 可 能 性 

理论 计算 机 科学 的 第 一 党 入门 课程 就 是 找 出 正则 表达 式 所 能 够 指定 的 语言 集合 。 例 如 ， 你 可 能 
会 感到 意外 的 是 ， 正 则 表达 式 能 够 实现 取 余 操 作 : 例如 (0 | 1(01*0)*1)* 描述 的 所 有 由 0 和 1 组 
成 的 字符 串 都 是 3 的 倍数 的 二 进 制 表 示 ! 也 就 是 说 ，11、110、1001 和 1100 都 在 这 个 语言 之 中 ， 
而 10、1011 和 10000 都 不 在 。 
5.4.3.7 局 限 
并 不 是 所 有 的 语言 都 可 以 用 正则 表达 式 定 义 。 一 个 令 人 深思 的 示例 就 是 不 存在 能 够 描述 所 有 合 
法 正则 表达 式 字符 串 的 集合 的 正则 表达 式 。 这 个 示例 的 简单 版 本 包括 无 法 使 用 正则 表达 式 检查 括号 
是 否 匹 配 完整 以 及 检查 字符 串 中 的 A 和 B 的 数量 是 否 一 样 多 。 

这 些 例子 都 只 是 冰山 一 角 。 正 则 表达 式 是 计算 性 基础 设施 中 非常 实用 的 一 部 分 ， 对 于 帮助 我 们 
理解 计算 的 本 质 起 到 了 重要 的 作用 。 和 KMP 算法 一 样 ， 下 面 将 要 描述 的 算法 也 是 在 探索 这 个 理论 
过 程 中 的 副产品 。 


5.4.4” 非 确定 有 限 状 态 自动 机 

我 们 可 以 将 Knuth-Morris-Pratt 算法 看 作 一 人 台 由 模式 字符 串 构 造 的 能 够 扫描 文本 的 有 限 状 态 自 
动机 。 对 于 正则 表达 式 ， 我 们 要 将 这 个 思想 推 而 广 之 。 

KMP 的 有 限 状态 自动 机 会 根据 文本 中 的 字符 改变 自身 的 状态 。 当 且 仅 当 自 动机 达到 停止 状态 
时 它 才 找到 了 一 个 匹配 。 算 法 本 身 就 是 模拟 这 种 自动 机 ， 这 种 自动 机 的 运行 很 容易 模拟 的 原因 是 因 
为 它 是 确定 性 的 : 每 种 状态 的 转换 都 完全 由 文本 中 的 字符 所 决定 。 

要 人 处理 正则 表达 式 ， 就 需要 一 种 更 加 强大 的 抽象 自动 机 。 因 为 或 操作 的 存在 ， 自 动机 无 法 仪 根 
据 一 个 字符 就 判断 出 模式 是 否 出 现 ; 事实 上 ， 因 为 闭 包 的 存在 ， 自 动机 甚至 无 法 知道 需要 检查 多 少 
字符 才 会 出 现 匹 配 失败 。 为 了 克服 这 些 困难 ， 我 们 需要 非 确定 性 的 自动 机 : 当面 对 匹配 模式 的 多 种 
可 能 时 ， 自 动机 能 够 “ 猜 出 ”正确 的 转换 ! 你 也 许 会 认为 这 种 能 力 是 不 可 能 的 ， 但 你 会 看 到 ， 编 写 
一 个 程序 来 构造 非 确定 有 限 状态 自动 机 (NFA ) 并 有 效 模拟 它 的 运行 是 很 简单 的 。 正 则 表达 式 模式 匹 
配 程序 的 总 体 结构 和 KMP 算法 的 总 体 结构 几乎 相同 : 

口 构造 和 给 定 正 则 表达 式 相 对 应 的 非 确定 有 限 状 态 自动 机 ; 
口 模拟 NFA 在 给 定 文本 上 的 运行 轨迹 。 

Kleene 定理 是 理论 计算 机 科学 中 的 一 个 重要 结论 ， 它 证 明了 对 于 任意 正则 表达 式 都 存在 一 个 与 
之 对 应 的 非 确定 有 限 状 态 自动 机 (反之 亦 然 ) 。 我 们 会 学 习 该 定理 的 证 明 并 演示 如 何 将 任意 正则 表 
达 式 转变 为 一 台 非 确定 有 限 状态 自动 机 ， 然 后 模拟 NFA 的 运行 轨迹 来 完成 模式 匹配 任务 。 

在 学 习 如 何 构 造 模 式 匹 配 的 NFA 之 前 ， 先 来 看 一 个 示例 ， 它 说 明了 NFA 的 性 质 和 操作 。 请 看 
图 5.4.1， 它 所 显示 的 NFA 是 用 来 判断 一 段 文本 是 否 包 含 在 正则 表达 式 (CA*B1AC)D) 所 描述 的 语言 
之 中 。 如 这 个 示例 所 示 ， 我 们 所 定义 的 NFA 有 着 以 下 特点 。 

口 长 度 为 M 的 正则 表达 式 中 的 每 个 字符 在 所 对 应 的 NFA 中 都 有 且 只 有 一 个 对 应 的 状态 。NFA 
的 起 始 状态 为 0 并 含有 一 个 ( 虚拟 的 ) 接受 状态 M。 
口 字母 表 中 的 字符 所 对 应 的 状态 都 有 一 条 从 它 指出 的 边 ， 这 条 边 指 向 模式 中 的 下 一 个 字符 所 对 


5.4 正则 表达 式 


应 的 状态 ( 图 中 的 黑色 的 边 ) 。 
口 元 字符 “(”、”)”、 ”和 “*” 所 对 应 的 状态 至 少 含 有 一 条 指出 的 边 
这 些 边 可 能 指向 其 他 的 任意 状态 。 
口 有 些 状 态 有 多 条 指出 的 边 ， 但 一 个 状态 只 能 有 一 条 指出 的 黑色 边 。 


Wi 


图 中 的 红色 的 边 ) 


Perecb-e- 坟 Coo oo 


起 始 状 态 接受 全 


图 5.4.1 模式 (CA*B|AC)D) 所 对 应 的 NFA 〈 另 见 彩 插 ) 


我 们 约定 将 所 有 的 模式 都 包含 在 括号 中 ， 因 此 NFA 中 的 第 一 个 状态 对 应 的 是 左 括号 ， 而 最 后 
一 个 状态 对 应 的 是 右 括号 ( 并 能 够 转换 为 接受 状态 ) 。 

和 5.3 节 中 的 DFA 一样， 在 NFA 中 也 是 从 状态 0 开始 读 取 文本 中 的 第 一 个 字符 。NFA 在 状态 的 转 
换 中 有 时 会 从 文本 中 读 取 字符 ， 从 左 向 右 一 次 一 个 。 但 它 和 DFA 有 着 一 些 基 本 的 不 同 : 
口 在 图 中 ， 字 符 对 应 的 是 结 点 而 不 是 边 ; 
口 NFA 只 有 在 读 取 了 文本 中 的 所 有 字符 之 后 才能 识别 它 ， 而 DFA 并 不 一 定 需 要 读 取 文本 中 的 

全 部 内 容 就 能 够 识别 一 个 模式 。 

这 些 不 同 并 不 是 关键 一 一 我 们 选择 的 是 最 适合 研究 的 算法 的 自动 机 版 本 。 

现在 的 重点 是 检查 文本 和 模式 是 否 匹 配 一 一 为 了 达到 这 个 目标 ， 自动 机 需要 读 取 所 有 文本 并 到 
达 它 的 接受 状态 。 在 NFA 中 从 一 个 状态 转移 到 男 一 个 状态 的 规则 也 P 状 态 
的 转换 有 以 下 两 种 方式 ， 请 见 图 5.4.2。 
口 如 果 当 前 状态 和 字母 表 中 的 一 个 字符 相对 应 且 文 本 中 的 当前 字符 和 该 字符 相 匹配 ， 自 动机 可 
以 扫 过 文本 中 的 该 字符 并 ( 由 黑色 的 边 ) 转换 到 下 一 个 状态 。 我 们 将 这 种 转换 称 为 匹配 转换 。 
口 自动 机 可 以 通过 红色 的 边 转换 到 另 一 个 状态 而 不 扫描 文本 中 的 任何 字符 。 我 们 将 这 种 转换 称 

为 6 转换 ， 也 就 是 说 它 所 对 应 的 “匹配 ”是 一 个 空 字符 串 €。 


A A A A B D 
0>1™>2773™>2>3>2>3>2>3>4>5>8>9>10>11 
/ 
匹配 转换 : 继续 扫描 下 e- 转 换 ， 无 匹配 扫描 了 所 有 文本 字符 
一 个 字符 并 改变 状态 时 的 状态 转换 并 达到 接受 状态 : NFA 
识别 了 文本 


图 5.4.2 ”找到 与 CCA*B | AcC)D)NFA 相 匹配 的 模式 ( 另 见 彩 插 ) 


例如 , 假设 输入 为 A A A A B D 并 启动 正则 表达 式 (CA*B1AC)D) 所 对 应 的 自动 机 ( 起 始 状态 为 0 ) 。 
图 5.4.2 显示 的 一 系列 状态 转换 最 终 到 达 了 接受 状态 。 这 一 系列 的 转换 说 明 输 入 文本 属于 正则 表达 式 所 
描述 的 字符 串 的 集合 一 一 即 文本 和 模式 相 匹配 。 按 照 NFA 方式 ， 我 们 称 该 NFA 识别 了 这 段 文本 。 

图 5.4.3 的 例子 说 明了 即使 对 于 类 似 于 A A A A B D 这 种 NFA 本 应 该 能 够 识别 的 输入 文本 ， 
也 可 以 找到 一 个 使 NFA 停滞 的 状态 转换 序列 。 例 如 ， 如 果 NFA 选择 在 扫描 完 所 有 A 之 前 就 转换 到 
状态 4， 它 就 无 法 再 继续 前 进 了 ， 因 为 离开 状态 4 的 唯一 办 法 是 匹配 B。 这 两 个 例子 说 明了 这 种 自 
动机 的 不 确定 性 。 在 扫描 了 一 个 A 并 到 达 状 态 3 之 后 ，NFA 面临 着 两 个 选择 : 它 可 以 转换 到 状态 4， 
或 者 回 到 状态 2。 这 次 选择 或 者 会 使 它 最 终 达 到 接受 状态 ( 如 第 一 个 例子 所 示 ) 或 者 进入 停滞 ( 如 
第 二 个 例子 所 示 ) 。NFA 在 状态 1 时 也 需要 进行 选择 ( 是否 由 6- 转换 到 达 状 态 2 或 者 状态 6 ) 。 
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这 个 例子 说 明了 NFA 和 DFA 之 间 的 关 A A A 
键 区 别 :因为 在 NFA 中 离开 一 个 状态 的 转换 。 0 一 1 一 2 一 3 一 2 一 3 4 < 元 法 训 开 状态 4 
可 能 有 多 种 ， 因 此 从 这 种 状态 可 能 进行 的 转 如 果 输 入 为 AAAABD， 
换 是 不 确定 的 一 一 即使 不 扫描 任何 字符 ， 它 那么 下 一 个 状态 转换 就 猜 错 了 
在 不 同 的 时 间 所 进行 的 状态 转换 也 可 能 是 不 A 
同 的 。 要 使 这 种 自动 机 的 运行 有 意义 ， 所 设 0 一 1 一 6 一 7 <、 无 法 离开 状态 7 
想 的 NFA 必须 能 够 猜测 对 于 给 定 的 文本 进行 
哪 种 转换 ( 如 果 有 的 话 ) 才能 最 终 到 达 接 受 


A A A A C 
中 太 和 \ We 小 太 
状态 。 换 句 话说 ， 当 且 仅 当 个 NFA 从 状态 0 一 1 一 2 一 3 一 2 一 3 一 2 一 3 一 2 一 3 一 4 让、 无 法 离 
0 开始 从 头 读 取 了 一 段 文本 中 的 所 有 字符 ， 开 状 态 4 


进行 了 一 系列 状态 转换 并 最 终 到 达 了 接受 图 543 使 得 CCA*B|AC)D) 的 NFA 进入 停滞 的 状 
状态 时 ， 称 该 NFA 识别 了 一 个 文本 字符 事 。 态 转 换 序列 
相反 ， 当 上 且 仅 当 对 于 一 个 NFA 没有 任何 匹配 
转换 和 €- 转换 的 序列 能 够 扫描 所 有 文本 字符 并 到 达 接 受 状 态 时 ， 则 称 该 NFA 无 法 识别 这 段 文本 字 
符 串 。 

和 DFA 一 样 ， 这 里 列 出 所 有 状态 的 转换 即 可 跟踪 NEFA 处 理 文本 字符 串 的 轨迹 。 任 意 类 似 的 结 
束 于 最 终 状态 的 转换 序列 都 能 证 明 某 个 自动 机 识别 了 某 个 字符 串 (也 可 能 有 其 他 的 证 明 ) 。 但 对 于 
一 段 给 定 的 文本 ， 应 该 如 何 找到 这 样 一 个 序列 呢 ? 对 于 另 一 段 给 定 的 文本 我 们 应 该 如 何 证 明 不 存在 
这 样 一 个 序列 呢 ? 这 些 问题 的 答案 比 你 想象 的 要 简单 ， 即 系统 地 尝试 所 有 的 可 能 性 ! 


5.4.5 ”模拟 NFA 的 运行 

存在 能 够 猜测 到 达 接 受 状 态 所 需 的 状态 转换 自动 机 的 设想 就 好 像 能 够 写 出 解决 任意 问题 的 程序 
一 样 : 这 看 起 来 很 荒 雇 。 经 过 仔细 思考 ， 你 会 发 现 这 个 任务 从 概念 上 来 说 并 不 困难 : 我 们 可 以 检查 
所 有 可 能 的 状态 转换 序列 ， 只 要 存在 能 够 到 达 接 受 状 态 的 序列 ， 我 们 就 会 找到 它 。 
5.4.5.1 自动 机 的 表示 

首先 ， 需 要 能 够 表示 NFA。 选 择 很 简单 : 正则 表达 式 本 身 已 经 给 出 了 所 有 状态 名 (0 到 M 之 间 
的 整数 ， 其 中 M 为 正则 表达 式 的 长 度 ) 。 用 char 数组 re[] 保存 正则 表达 式 本 身 ， 这 个 数组 也 表 
示 了 匹配 的 转换 ( 如 果 re[i] 存在 于 字母 表 中 ,那么 就 存在 一 个 从 1 到 i+1 的 匹配 转换 ) 。6E- 转 
换 最 自然 的 表示 方法 当然 是 有 向 图 一 一 它们 都 是 连接 0 到 M 之 间 的 各 个 顶点 的 有 向 边 (图 5.4.4 中 
的 红色 边 ) 。 因 此 ， 我 们 用 有 向 图 G 表示 所 有 €- 转换 。 在 讨论 模拟 的 过 程 之 后 将 讨论 由 给 定 正则 
表达 式 构 建 有 向 图 的 任务 。 对 于 上 面 的 例子 ， 它 的 有 向 图 含有 以 下 9 条 边 : 

0 一 1 1 一 2 1 一 6 2 一 3 3 一 2 3 一 4 5 一 8 8 一 9 10 一 11 


5.4.5.2 ”NFA 的 模拟 与 可 达 性 

为 了 模拟 NFA 的 运行 轨迹 ， 我 们 会 记录 自动 机 在 检查 当前 输入 字符 时 可 能 遇 到 的 所 有 状态 的 
集合 。 这 里 ， 关 键 的 计算 是 我 们 已 经 熟悉 并 在 算法 4.4 中 解决 的 多 点 可 达 性 问题 。 我 们 会 查找 所 有 
从 状态 0 通过 6- 转换 可 达 的 状态 来 初始 化 这 个 集合 。 对 于 集合 中 的 每 个 状态 ， 检 查 它 是 否 可 能 与 第 
一 个 输入 字符 相 匹配 。 检 查 并 匹配 之 后 就 得 到 了 NFA 在 匹配 第 一 个 字符 之 后 可 能 到 达 的 状态 的 集合 。 
这 里 还 需要 向 该 集合 中 加 入 所 有 从 该 集合 中 的 任意 状态 通过 6- 转换 可 以 到 达 的 其 他 状态 。 有 了 这 
个 匹配 了 第 一 个 字符 之 后 可 能 到 达 的 所 有 状态 的 集合 ，6e- 转换 有 向 图 中 的 多 点 可 达 性 问题 的 答案 就 
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是 可 能 匹配 第 二 个 输入 字符 的 状态 集合 。 例 如 ， 在 示例 NFA 中 初始 状态 集合 为 {0,1,2,3,4,6}， 
如 果 第 一 个 输入 字符 为 A， 那 么 NFA 通过 匹配 转换 可 能 到 达 的 状态 是 {3,7}， 然 后 它 可 能 进行 3 到 
2 或 3 到 4 的 6- 转换， 因此 可 能 与 第 二 个 字符 匹配 的 状态 集合 为 {2,3,4,7}。 重 复 这 个 过 程 直 到 
文本 结束 可 能 得 到 两 种 结 

口 可 能 到 达 的 状态 集合 中 含有 接受 状态 ; 

口 可 能 到 达 的 状态 集合 中 不 含有 接受 状态 。 

第 一 种 结果 说 明 存在 某 种 转换 序列 使 NFA 到 达 接 受 状态 。 第 二 种 结果 说 明 对 于 该 输入 NFA 总 


是 会 停滞 ， 导 致 匹配 失败 。 使 用 我 们 已 经 实现 了 的 SET 数据 类 型 和 用 于 在 有 向 图 中 解决 多 点 可 达 性 |797 


问题 的 Di rectedDFS 类 ， 下 面 的 NFA 模拟 代码 只 是 翻译 了 刚才 的 描述 。 你 可 以 用 图 5.4.4 检查 你 
对 这 段 代 码 的 理解 ， 它 显示 了 样 例 输入 的 完整 轨迹 。 


0 1 2 3 4 6 : 从 起 始 状 态 开始 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 
0 1 2 3 4 5 6 8 9 10 a 
0 

3 7 : 匹配 A 之 后 到 达 的 状态 的 集合 


DR 


8 8 10 11 


2 3 4 7 : 匹配 A 之 后 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 


0 玉 2 二 4 5 6 4 8 9 0 11 


3 : 匹配 A A 之 后 到 达 的 状态 的 集合 


0 1 2 3 4 5 6 7 8 9 10 11 


2 3 4 : 匹配 A A 之 后 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 
7 


0 一 2 4 5 6 8 9 10 
5 ， 匹配 A A B 之 后 到 达 的 状态 的 集合 
0 2 3 4 5 6 7 8 9 10 天 
GD 
5 8 9 : 匹配 A A B 之 后 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 
0 2 3 4 5 Wn 9 10 让 
DasO 
10 : 匹配 A A B D 之 后 到 达 的 状态 的 集合 
0 二 2 3 4 5 6 7 8 9 10 11 
@ 一 人 
10 11 : 匹配 A A B D 之 后 通过 -转换 能 够 到 达 的 所 有 状态 的 集合 
0 1 2 3 4 5 6 久 8 9 10 11 
CO 
接受 ! 


图 5.4.4 对 (CA*B1AC)D) 的 NFA 处 理 输入 A A BD 的 模拟 


成 本 和 5.3 节 玫 


命题 Q。 判 是 一 个 长 度 为 W 的 正则 表达 式 所 对 应 的 NEFA 能 否 识 别 一 


时 间 在 最 坏 情况 下 和 MN 成 正比 。 


证 明 。 对 于 长 度 为 和 的 文本 中 的 每 


度 为 N 的 文本 所 需 的 


个 字符 ， 我 们 都 会 遍历 一 个 大 小 不 超过 MM 的 状态 集合 并 在 E- 转 


换 的 有 向 图 中 进行 深度 优先 搜索 。 下 面 即将 学 习 的 自动 机 的 构造 可 以 证 明 该 有 向 图 中 的 边 数 不 会 超 


过 2M 条 ， 因 此 每 次 深度 优先 搜索 在 最 坏 情况 下 的 运行 时 间 与 M 成 正比 。 


请 仔细 思考 一 下 这 个 不 同 寻常 的 结 
F 始 时 学 习 的 最 坏 博 况 下 寻找 固定 子 字符 上 


public boolean recognizes(String txt) 


上 


// NFA 是 否 能 够 识别 文本 txt? 
Bag<Integer> pc = new Bag<Integer>() ; 
DirectedDFS dfs = new DirectedDFS(G, 0); 
Ome = OV GVO VE 

if (dfs.marked(v)) pc.add(v); 


foment = 0 1 < tt emg 
{ // 计算 txt[i+1] 可 能 到 达 的 所 有 NFA 状 态 
Bag<Integer> match = new Bag<Integer>() ; 
Ro (Cahe wa a Toke 
eh (MD 


if (re[lv] == txt.charAt(i) || re[lv] == 


match.add(v+1); 

pc = new Bag<Integer>() ; 
dfs = new DirectedDFS(G, match); 
omamt v0 GVO Vs) 
if (dfs.marked(v)) pc.add(v); 


} 


for Cint v : pe) if (Vv == M) return true; 
return false; 


使 用 NFA 模 拟 的 模式 匹配 


5.4.6 ”构造 与 正则 表达 式 对 应 的 NFA 


根据 正则 表达 式 和 大 家 所 熟悉 的 算术 表达 式 的 相似 性 ， 你 肯定 不 会 惊讶 于 


。 它 在 最 坏 情 况 下 的 成 本 为 文本 和 模式 的 长 度 之 积 ， 这 个 
的 初级 算法 的 成 本 竟然 是 相同 的 ! 


F 将 正则 表达 式 转 化 为 


NFA 的 过 程 在 某 种 程度 上 类 似 于 1.3 节 中 使 用 Dijkstra 的 双 栈 算法 对 表达 式 求 值 的 过 程 。 这 两 个 过 


程 的 不 同 之 处 在 于 : 
口 正则 表达 式 中 的 连接 操作 并 没有 运算 符 ; 


口 正则 表达 式 的 闭 包 (* ) 是 一 个 一 元 运算 符 ; 


口 正则 表达 式 只 有 一 个 二 元 运算 符 ， 即 或 (|) 。 


我 们 不 会 在 两 者 的 不 同和 相似 之 处 深究 ,而 是 会 学 习 一 种 为 正则 表达 式 量 身 定 做 的 实现 。 例 如 ， 
这 里 只 需要 一 个 栈 ， 而 不 是 两 个 。 
根据 上 一 人 小节 开头 讨论 的 NFA 表示 ， 这 里 只 需要 构造 一 个 由 所 有 6- 转换 组 成 的 有 向 图 6。 正 
则 表达 式 本 身 和 本 节 开 头 学 习 过 的 形式 定义 足以 提供 所 需 的 所 有 信息 。 根 据 Dijkstra 的 算法 ,我们 
会 使 用 一 个 栈 来 记录 所 有 左 括号 和 或 运算 符 的 位 置 。 
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5.4.6.1 ”连接 操作 

对 于 NFA， 连 接 操作 是 最 容易 实现 的 了 。 状 态 的 匹配 转换 和 字母 表 中 的 字符 的 对 应 关系 就 是 连 
接 操作 的 实现 。 
5.4.6.2 ”括号 

我 们 要 将 正则 表达 式 字符 串 中 所 有 左 括号 的 索引 压 人 栈 中 。 每 当 我 们 遇 到 一 个 右 括号 ， 我 们 最 
终 都 会 用 后 文 所 述 的 方式 将 左 括号 从 栈 中 弹出 。 和 Dijkstra 算法 一 样 ， 栈 可 以 很 自然 地 处 理 肯 套 的 
括号 。 
5.4.6.3” 闭 包 操 作 

闭 包 运算 符 (* ) 只 可 能 出 现在 (i) 单个 字符 之 后 ( 此 时 将 在 该 字符 和 “*” 之 间 添 加 相互 指向 
的 两 条 €- 转换 ) ,或 者 是 (让 右 括号 之 后 ， 此 时 将 在 对 应 的 左 括号 ( 即 栈 顶 元 素 ) 和 “*” 之 间 添 
加 相互 指向 的 两 条 €- 转换 。 
5.4.6.4 “或 ”表达 式 

在 形 如 (A1B) 的 正则 表达 式 中 , A 和 B 也 都 是 正则 表达 式 。 我 们 的 处 理 方式 是 添加 两 条 €- 转换 : 
一 条 从 左 括号 所 对 应 的 状态 指向 B 中 的 第 一 个 字符 所 对 应 的 状态 ， 另 一 条 从 “|” 字符 所 对 应 的 状态 
指向 右 括 号 所 对 应 的 状态 。 将 正则 表达 式 字符 串 中 “|” 运 算 符 的 索引 ( 以 及 如 上 文 所 述 的 左 括号 的 
索引 ) 压 入 栈 中 ， 这 样 在 到 达 右 括号 时 这 些 所 需 信 息 都 会 在 栈 的 项 部。 这 些 €- 转换 使 得 NFA 能 够 
在 这 两 者 之 间 进 行 选择 。 此 时 并 没有 像 平常 一 样 添 加 一 条 从 “|” 运 算 符 所 对 应 的 状态 到 下 一 个 字符 

所 对 应 的 状态 的 6- 转换 一 一 NFA 离开 “或 ” 运 


算 符 的 唯一 方式 就 是 通过 某 种 状态 转换 到 达 右 
oo 括号 所 对 应 的 状态 。 00 

G.addEdge(i, i+1); 这 些 简单 的 规则 足以 构造 任意 复杂 的 正则 

人 表达 式 所 对 应 的 NFA。 算 法 5.9 实现 了 这 些 规 

闭 包 表 达 式 则 。 它 的 构造 函数 创建 了 给 定 正则 表达 式 所 对 

1p i i+l 应 的 EE 转换 有 向 图 。 该 算法 处 理 样 例 的 轨迹 如 

ys 图 5.4.7 所 示 。 图 5.4.5、 图 5.4.6 和 练习 中 给 出 

ee 了 一 些 其 他 的 例子 ， 我 们 也 希望 你 自己 通过 更 

G.addEdge(i+1, 1p); 多 的 示例 加 深 对 这 个 过 程 的 理解 。 为 了 实现 的 

“或 ”操作 表达 式 简洁 和 清晰 ， 我 们 将 一 些 实现 细 节 (处 理 元 字 


1p CS 符 、 字 符 集 描述 符 、 闭 包 的 缩 略 写法 和 多 向 “或 ” 
a ee 运算 等 ) 留 做 了 练习 ( 请 见 练习 5.4.16 到 练习 
G.addEdge(1p, or+1); 5.4.21 ) 。 在 没有 这 些 扩展 的 情况 ，NFA 构造 
We 过 程 所 需 的 代码 非常 少 ， 是 我 们 所 见 过 的 最 巧 
图 5.4.5 ”NFA 的 构造 规则 妙 的 算法 之 一 。 


(OKANO OG CE (> 


图 5.4.6 模式 (.*ABCCCID*E)F)*G) 所 对 应 的 NFA 801 
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算法 5.9 正则 表达 式 的 模式 匹配 (grep) 


public class NFA 


private char[] re; // 匹配 转换 
private Digraph G; // epsilon 转 换 
private int M; // 状态 数量 
public NFA(String regexp) 
{ // 根据 给 定 的 正则 表达 式 构造 NFA 
Stack<Integer> ops = new Stack<Integer>() ; 
re = regexp.toCharArray() ; 
M = re.length; 
G = new Digraph (M+1); 
for Cint i = 0; i < M; i++) 
{ 
int lp = i; 
if (re[i] == '(' || re[i] == '|') 
ops.push(i); 
else if (re[i] == ')') 
《 
int or = ops.popO; 
if (re[or] == '|') 
{ 
lp = ops.pop(); 
G.addEdge(lp, or+1); 
G.addEdge(or, 1); 
} 
else lp = or; 
} 
if (i < MI 8&& re[i+1] -= '*') // 查看 下 一 个 字符 
{ 
G.addEdge(lp, i+1); 
G.addEdge(i+1, 1p); 
} 
if (re[i] == '(" || re[i] == '*'" || re[i] == ')') 
G.addEdge(i, i+1); 
} 
} 
public boolean recognizes(String txt) 
// NFA 是 否 能 够 识别 文本 txXt? (请 见 5.4.5.2 节 框 注 “使 用 NFA 模 拟 的 模式 匹配 ”) 
} 
802 该 构造 函数 根据 给 定 的 正则 表达 式 构 造 了 对 应 的 NFA 的 -转换 有 向 图 。 


命题 R。 构 造 和 长 度 为 M 的 正则 表达 式 相对 应 的 NFA 所 需 的 时 间 和 空间 在 最 坏 情况 下 与 必 成 
Es 


1 一 | 


证 明 。 对 于 长 度 为 M 的 正则 表达 式 中 的 每 个 字符 ， 最 多 会 添加 三 条 Er- 转换 并 可 能 执行 一 到 两 
次 栈 操作 。 
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保存 左 括 9 
号 和 “或 " 9 一 
运算 符 的 六 

索引 的 栈 
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le= [Eee 
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有 

GO) 

© 

, 五 0b. 

1 一 
GO) 一 

| > 
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图 5.4.7 构造 正则 表达 式 ((A*B|AC)D) 所 对 应 的 NFA 

模式 匹配 的 经 上 典 用 例 GREP 的 代码 如 后 面 框 注 所 示 。 它 接受 一 个 正则 表达 式 为 参数 并 能 够 打印 
出 标准 输入 中 含有 属于 正则 表达 式 所 描述 的 语言 的 子 字符 串 的 所 有 行 。 这 个 程序 是 Unix 早期 实现 
中 的 一 项 特性 并 已 经 成 为 数 代 程序 员 不 可 缺少 的 工具 。 
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% more tinyL.txt 


AC 
AD 
AAA 
public class GREP ABD 
Ee ADD 
public static void main(String[] args) BCD 
{ ABCCBD 
Strngnregqexp = rargstol BABAAA 
NFA nfa = new NFA(regexp); BABBAAA 
while (StdIn.hasNextLine()) 
{ % java GREP "(A*B|IACO)D” < tinyL. 
String txt = StdIn.readLine() ; I 
if (nfa.recognizes(txt)) ABD 
StaqOme pommel ex ABCCBD 
} 】 % java GREP StdIn < GREP.java 
} while (StdIn.hasNextLine()) 
803 SEhmnogmtexe = Stdlne 


: read Line() ; 


804 经 典 的 一 般 正 则 表达 式 模式 匹配 (GREP) NFA 的 用 例 


问 空 (nu11) 和 € 有 什么 区 别 ? 
答 ”前 者 表示 一 个 空 集 ， 后 者 表示 一 个 空 字符 串 。 你 可 以 构造 一 个 只 有 一 个 元 素 6 的 集合 ， 而 显然 这 个 


805 集合 不 是 空 集 (nu11 ) 。 


图 练习 


5.4.1 给 出 能 够 描述 含有 以 下 字符 的 所 有 字符 串 的 正则 表达 式 : 

口 4 个 连续 的 A 

口 最 多 4 个 的 连续 的 A 

口 1 到 4 个 连续 的 A 

5.4.2 用 自然 语言 简略 的 描述 以 下 正则 表达 式 : 
3 
b.A.*A | A 
C. .*ABBABBA.* 
d, .* A.*A*A.*A.* 

5.4.3 一 个 使 用 MM 个 或 运算 符 且 不 使 用 闭 包 的 正则 表达 式 最 多 能 够 描述 多 少 个 不 同 的 字符 串 ? ( 可 以 使 
用 连接 操作 和 括号 。 ) 

5.4.4 画 出 模式 (CCA1B)*|CD*|EFG)*)* 所 对 应 的 NFA。 

5.4.5 画 出 练习 5.4.4 的 NFA 的 6E- 转换 有 回 网 。 

5.4.6 对 于 输入 ABBACEFGEFGCAAB， 给 出 练习 5.4.4 的 NFA 中 每 次 匹配 转换 和 6E- 转换 
之 后 可 达 的 状态 集合 

5.4.7 将 5.4.6.4 节 框 注 “ 经典 的 一 般 正则 表达 式 模式 匹 本 ( GREP ) NFA 的 用 例 ” 中 的 GREP 修改 为 
GREPmatch， 将 模式 用 括号 包 耻 起 来 但 不 在 模式 两 端 加 上 “.*”。 这 样 程序 就 只 会 打出 属于 给 定 


5.4.8 


5.4.9 
5.4.10 


5.4.11 


5.4.12 


5.4.13 


5.4.14 
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7 也 
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正则 表达 式 所 描述 的 语言 的 输入 行 字符 串 。 给 出 以 下 命令 的 结 
a.% java GREPmatch "(A|B) (CID)" < tinyL.txt 

b.% java GREPmatch "A(B|C)*D" < tinyL.txt 

c.% java GREPmatch "(A*B|AC)D” < tinyL.txt 

正则 表达 式 描述 以 下 二 进 制 字 符 串 的 集合 。 

a. 含有 至 少 3 个 连续 的 1 

b. 含有 子 字符 串 110 

c. 含有 子 字符 串 1101100 

d. 不 含有 子 字符 串 110 

用 一 个 正则 表达 式 描 述 至 少 含有 两 个 0 但 不 含有 任何 连续 的 0 的 二 进 制 字符 串 
用 正则 表达 式 描述 以 下 二 进 制 字 符 串 的 集合 。 

a. 至 少 含 有 3 个 字符 ， 且 第 三 个 字符 为 0 

b. 字符 串 中 的 0 的 个 数 为 3 的 倍数 

c. 起 止 字符 相同 

d. 长 度 为 奇数 

e. 首 字 母 为 0 上 且 长 度 为 奇数 ， 或 者 首 字 母 为 1 且 长 度 为 偶数 
f 长 度 在 1 到 3 之 间 
对 于 以 下 正则 表达 式 ， 计 算 有 多 少 个 长 度 正 好 为 1000 的 二 进 制 字符 串 和 它们 匹配 。 

a. 0(0 | 1)*1 

b; ‘OQ*101* 

c. (1 | OD* 

为 以 下 应 用 写 出 Java 的 正则 表达 式 。 

a. 电话 号 码 ， 例 如 (609) 555-1234 

b. 社会 保险 号 ， 例 如 123-45-6789 

c. 日 期 ， 例 如 December 31, 1999 

d. 形 如 a.b.c.d 的 IP 地 址 ， 其 中 每 个 字符 都 表示 着 一 个 可 能 是 1 位 、2 位 或 者 3 位 的 数字 ， 
例如 196.26.155.241 

e. 车 牌号 ， 前 4 个 字符 为 数字 ， 最 后 2 个 字符 为 大 写字 母 


o 


有 难度 的 正则 表达 式 。 使 用 二 值 字母 表 的 正则 表达 式 描 述 以 下 字符 串 的 集合 。 
a. 除 了 11 和 111 的 所 有 字符 串 
b. 奇数 位 数字 为 1 的 所 有 字符 串 

c. 至 少 含 有 两 个 0 和 至 多 含有 一 个 1 的 所 有 字符 串 

d. 不 存在 连续 两 个 1 的 所 有 字符 串 

二 进 制 数 的 可 整除 性 。 使 用 正则 表达 式 描述 以 下 二 进 制 字符 串 使 得 其 对 应 的 整数 能 够 满足 以 下 
条 件 。 

a 被 2 整除 

b. 被 3 整除 


800 


807 
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c. 被 123 整除 

5.4.15 单 层 正则 表达 式 。 构 造 一 个 Java 的 正则 表达 式 来 描述 所 有 二 值 字母 表 的 合法 正则 表达 式 字 符 串 
的 集合 , 字符 串 不 含有 艇 套 的 括号 。 例 如 , (0.*1)* 和 (1.*0)* 都 是 这 个 语言 中 的 字符 串 , 但 (1(0 
或 者 1)1)* 不 是 。 

5.4.16 多 向 “或 ”运算 。 为 NFA 实现 多 向 “或 ”运算 。 代 码 为 模式 〈.*AB((CID1E)F)*G) 生成 的 自动 
机 应 该 如 图 5.4.8 所 示 。 


Ores oNORORG CE BO- 


808 图 5.4.8 ”模式 〈.*AB(C(CC1D1E) F)*G) 所 对 应 的 NFA 


5.4.17 通配符 。 为 NFA 添加 处 理 通 配 符 的 能 

5.4.18 至 少 重 复 一 次 。 为 NFA 添加 处 理 闭 包 的 “+” 运 算 符 的 能 
5.4.19 指定 重复 次 数 。 为 NFA 添加 处 理 指定 重复 次 数 的 能 
5.4.20 ”范围 描述 符 。 为 NFA 添加 处 理 指定 重复 范围 的 能 力 。 


5.4.21 补 集 。 为 NFA 添加 处 理 补 集 描述 符 的 能 
5.4.22 ”证明 。 开 发 一 个 新 版 本 的 NFA， 使 它 能 够 打印 一 份 证 明 ， 指 出 给 定 字符 串 包含 在 NFA 能 够 识别 


809 的 语言 之 中 ( 即 终止 于 接受 状态 的 一 系列 状态 转换 ) 。 
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5.5 数据 压缩 


这 个 世界 充满 了 数据 ， 而 能 够 有 效 表达 数据 的 算法 在 现代 计算 机 基础 架构 中 有 着 重要 的 地 位 。 
压缩 数据 的 原因 主要 有 两 点 : 节省 保存 信息 所 需 的 空间 和 节省 传输 信息 所 需 的 时 间 。 尽 管 科技 在 发 
展 ， 但 是 这 两 点 的 重要 性 并 没有 发 生变 化 ， 如 今 任 何 需 要 更 大 存储 空间 或 是 长 时 间 等 待 下 载 任务 完 
成 的 人 都 会 意识 到 数据 压缩 的 重要 性 。 

当 你 在 处 理 数字 图 像 、 声 音 、 电 影 和 其 他 各 种 数据 时 ， 就 已 经 在 与 数据 压缩 打交道 了 。 我 们 将 会 
学 习 的 算法 之 所 以 能 够 节省 空间 ， 是 因为 大 多 数 数据 文件 都 有 很 大 的 元 余 : 例如 ， 文 本 文件 中 有 些 字 
符 序列 的 出 现 频率 远 高 于 其 他 字符 串 ; 用 来 将 图 片 编码 的 位 图 文件 中 可 能 有 大 片 的 同 质 区 域 ; 保存 数 
字 图 像 、 电 影 、 声 音 等 其 他 类 似 信 号 的 文件 都 含有 大 量 重复 的 模式 。 

我 们 将 会 讨论 广泛 应 用 的 一 种 初级 的 算法 和 两 种 高 级 的 算法 。 这 些 算法 的 压缩 效果 可 能 
所 不 同 ， 取 决 于 输入 的 特征 。 文 本 数据 一 般 都 能 节省 20% ~ 50% 的 空间 ， 某 些 情况 下 能 够 达到 
50% ~ 90%。 你 将 会 看 到 ， 任 何 数据 压缩 算法 的 效果 都 十 分 依赖 于 输入 的 特征 。 注 意 : 本 书 中 , 我 
们 在 提 到 性 能 的 时 候 一 般 指 的 都 是 时 间 ; 而 对 于 数据 压缩 ， 性 能 指 代 的 是 算法 的 压缩 率 ， 当 然 也 会 
考虑 压缩 的 用 时 。 

从 另 一 方面 来 说 ， 现 在 的 数据 压缩 技术 并 没有 以 前 那么 重要 了 ， 因 为 计算 机 的 存储 设备 的 成 本 已 
经 大 幅度 降低 ， 善 通用 户 拥有 的 存储 空间 比 以 前 要 多 得 多 。 但 是 ， 现 在 数据 压缩 技术 也 比 任何 时 候 都 
更 重要 ， 因 为 现在 存储 的 数据 更 多 了 ， 因 此 数据 压缩 能 够 节省 的 空间 也 就 更 大 了 。 事 实 上 ， 随 着 互联 
网 的 出 现 ， 数 据 压缩 得 到 了 更 加 广泛 的 应 用 ， 因 为 它 是 减少 传输 大 量 数 据 所 需 时 间 的 最 经 济 的 办 法 。 

数据 压缩 有 着 丰富 的 历史 积淀 ( 我 们 只 会 作 简 要 的 介绍 ) ， 而 它 在 未 来 世界 中 扮演 的 角色 将 会 
更 加 重要 。 所 有 人 都 能 从 数据 压缩 算法 的 学 习 中 得 到 益处 ， 因 为 这 些 算法 都 非常 经 典 、 优 雅 、 有 趣 
而 高 效 。 810 


5.5.1 游戏 规则 
现代 计算 机 系统 中 处 理 的 所 有 类 型 的 数据 都 有 一 个 共同 点 : 它们 最 终 都 是 用 二 进 制 表示 的 。 我 们 
可 以 将 它们 都 看 成 一 串 比 特 (或 者 字 节 ) 的 序列 。 简 单 起 见 ， 本 节 中 使 用 比特 流 这 个 术语 表示 比特 的 
序列 ， 用 字 节 流 这 个 术语 表示 可 以 看 作 固定 大 小 的 字 节 序列 的 比特 序列 。 比 特 流 或 字 节 流 可 以 是 保存 
在 计算 机 中 的 文件 ， 也 可 以 是 互联 网 上 传输 的 一 条 消息 。 
基础 模型 
数据 压缩 的 基础 模型 非常 简单 〈 请 见 图 5.5.1 ) 。 它 由 两 个 主要 的 部 分 组 成 ， 两 者 都 是 一 个 能 
够 读 写 比特 流 的 黑 盒 子 : 
口 压缩 金 ， 能 够 将 一 个 比特 流 B 转化 为 压缩 后 的 版 本 C(B); 
口 展开 使 ， 能 够 将 C(B) 转化 回 B。 
如 果 使 用 |B| 表示 比特 流 中 比特 的 数量 的 话 ， 我 们 感 兴 趣 的 是 将 |C(B)MIB| 最 小 化 ， 这 个 值 被 称 
为 压缩 率 。 


压缩 展开 
比特 流 B 压缩 后 的 版 本 C(B) 原 比特 流 B 
0110110101. . . ee m= 1101011111... | gp 0110110101... 


图 5.5.1 数据 压缩 的 基础 模型 
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这 种 模型 叫做 无 损 压 缩 模 型 一 一 保证 不 丢失 任何 信息 ， 即 压缩 和 展开 之 后 的 比特 流 必 须 和 原始 
的 比特 流 完全 相同 。 许 多 种 类 型 的 文件 都 会 用 到 无 损 压 缩 ， 例 如 数值 数据 或 者 可 执行 的 代码 。 对 于 
某 些 类 型 的 文件 ( 例如 图 像 、 视 频 和 音乐 ) ， 有 损 的 压缩 方法 也 是 可 以 接受 的 ， 此 时 解码 器 所 产生 
的 输出 只 是 与 原 输 入 文件 近似 。 有 损 压 缩 算法 的 评价 标准 不 仅 是 压缩 率 ， 还 包括 主观 的 质量 感受 。 
在 本 书 中 不 会 讨论 有 损 压缩 算法 。 


5.5.2 ” 读 写 二 进 制 数据 

完整 描述 计算 机 上 信息 的 编码 方式 取决 于 系统 ， 这 超出 了 本 书 的 讨论 范围 。 但 我 们 可 以 通过 几 
个 基本 的 假设 和 两 个 简单 的 API 来 将 实现 与 这 些 细节 隔离 开 来 。BinaryStdIn 和 BinaryStdOut 这 
两 份 API 来 自 于 我 们 一 直 在 使 用 的 StdIn 和 Stdout， 但 它们 的 作用 是 读 取 和 写 入 比特， 而 StdIn 和 
Stdout 面向 的 是 由 Unicode 编码 的 字符 流 。Std0ut 上 的 一 个 int 值 是 一 串 字 符 ( 它 的 十 进 制 表 示 ) ; 
BinaryStdOut 上 的 一 个 int 值 是 一 串 比 特 ( 它 的 二 进 制 表示 ) 。 
5.5.2.1 二进制 的 输入 输出 

今天 ， 大 多 数 系 统 的 输入 输出 系统 ， 包 括 Java， 都 是 基于 8 位 的 字 节 流 ， 因 此 我 们 的 API 也 应 该 
读 写 字 节 流 ， 以 和 原始 数据 类 型 内 部 表示 的 输入 输出 格式 相 匹 配 ， 将 8 位 的 char 编码 为 1 个 字 节 ，16 
位 的 short 编码 为 2 个 字 节 ，32 位 的 int 编码 为 4 个 字 节 ， 等 等 。 因 为 比特 流 是 数据 压缩 的 主要 抽象 
层次 ， 这 就 需要 更 进一步 ， 人 允许 用 例 读 写 单个 的 比特 以 及 原始 类 型 的 数据 。 我 们 的 目标 是 尽量 减少 用 例 
需要 进行 的 类 型 转换 并 按照 操作 系统 的 要 求 表示 数据 。 表 5.5.1 中 的 API 从 标准 输入 中 读 取 比 特 流 。 


表 5.5.1 从 标准 输入 读 取 比特 流 的 静态 方法 的 API 


public class BinaryStdIn 


boolean readBoolean() 读 取 1 位 数据 并 返回 一 个 boolean 值 
char readCharQO 读 取 8 位 数据 并 返回 一 个 char 值 
char readChar(int r) 读 取 r (1~16 ) 位 数据 并 返回 一 个 char 值 
[适用 于 byte (8 位 ) 、short (16 位 )、int (32 位 ) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 
boolean isEmpty() 比特 流 是 否 为 空 
void close() 关闭 比特 流 


和 StdIn 明显 不 同 的 是 ， 这 份 抽象 API 的 一 个 关键 特性 在 于 标准 输入 中 的 数据 并 不 一 定 
是 与 字 节 边界 对 齐 的 。 如 果 输 入 流 只 含有 一 个 字 节 ， 用 例 可 以 一 个 比特 一 个 比特 地 调用 8 次 
readBoolean() 方法 读 取 它 。 虽 然 close() 方法 并 不 十 分 重要 ， 但 为 了 能 够 终止 输入 ， 用 例 应 该 
使 用 close0) 方法 表示 不 会 再 读 取 任何 数据 。 和 StdIn 与 Std0ut 一 样 ， 使 用 表 5.5.2 中 的 补充 
API 来 向 标准 输出 写 入 比特 流 。 


表 5.5.2 ”向 标准 输出 中 写 入 比特 流 的 静态 方法 的 API 


public class BinaryStdOut 


void write(boolean b) 写 入 指定 的 比特 
void write(char c) 写 入 指定 的 8 位 字符 
void write(char c, int r) 写 和 人 指定 字符 的 低 r (1~16) 位 


同 


用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位 ) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 
void close() 关闭 比特 流 


对 于 输出 ，close() 方法 就 很 重要 了 : 用 例 必须 使 用 close() 方法 保证 之 前 调 
法 处 理 的 所 有 数据 都 写 入 比特 流 ， 比特 流 的 最 后 一 个 字 节 必须 用 0 补 齐 以 保证 和 文件 系统 的 兼容 性 。 
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write() 方 


StdIn 与 Std0ut 有 In 与 Out 这 两 份 API 与 之 关联 ， 这 里 也 通过 BinaryIn 和 BinaryOut 直接 使 


用 二 进 制 编码 的 文件 。 
5.5.2.2 ”举例 


以 下 是 一 个 简单 的 示例 ， 假 设 你 用 一 个 数据 结构 将 日 期 表示 为 3 个 int 值 (月 、 日 、 
年 ) 。 使 用 Stdout 将 这 些 值 以 12/31/1999 的 格式 输出 需要 10 个 字符 ， 也 就 是 80 位 。 如 果 用 


BinaryStdOut 直接 输出 这 些 值 则 需要 96 位 (每 个 int 值 32 位 ); 如 果 


j byte 值 来 表示 月 和 日 ， 


用 short 值 表 示 年 ， 输 出 将 只 有 32 位 。 如 果 使 用 BinaryStdout， 可 以 只 用 4 位 、5 位 和 12 位 的 
3 个 域 ， 和 输出 总 共 21 位 ， 请 见 图 5.5.2 (实际 上 是 24 位 ， 因 为 文件 必须 是 完整 的 8 位 字 节 ， 因 此 
close0) 方法 会 在 末尾 添加 三 个 0 位。 ) 注意 : 这 是 最 粗糙 的 数据 压缩 方式 。 


字符 流 (StdOut) 


Stdout.printCmonth + "/" + day + "/" + year); 


00110001001100100010111100110111001100010010111100110001 00111001 0011100100111001 


1 2 3 1 元 了 9 9 9 RS 80 位 
3 个 int 值 (BinaryStdOut) 8 位 ASCII 码 表示 的 '9' 
BinaryStdout.writeCmonth) ; 
BinaryStdOut .write(Cday) ; 和 加 
BinaryStdOut.write(year); 32 位 整数 表示 的 31 


000000000000000000000000000011000000000000000000000000000001111100000000000000000000011111001111 


1999 SS 


12 31 96 位 
2 个 char 值 和 1 个 short 值 (BinaryStdOut) 个 4 位 、 一 个 5 位 和 一 个 12 位 的 3 个 域 (BinaryStdOut) 
BinaryStdOut.write((char) month); BinaryStdOut.write(month, 4); 
BinaryStdOut.write((char) day); BinaryStdOut.write(day, 5); 
BinaryStdOut.write((short) year); BinaryStdOut.write(year, 12); 
00001100000111110000011111001111 110011111011111001111 
12 31 1999 到 32 位 12 31 1999 21 位 (关闭 时 会 为 了 对 齐 补充 3 位 ) 


5.5.2.3” ”二进制 转 储 


图 5.5.2 ”向 标准 输出 中 写 入 一 个 日 期 的 4 种 方法 


在 调试 的 时 候 , 我们 应 该 如 何 检查 比特 流 或 者 字 节 流 的 内 容 呢 ? 早期 的 程序 员 面 临 着 这 个 问题 ， 
因为 当时 寻找 bug 的 唯一 方式 就 是 检查 内 存 中 的 每 个 比特 。 转 储 ( dump ) 这 个 词 从 计算 机 的 早期 一 


直 沿 用 下 来 ， 表 示 的 是 比特 流 的 一 种 可 供 人 类 阅读 的 形式 。 如 果 你 试图 用 一 个 编辑 器 来 打开 一 个 二 


进 制 文件 , 或 者 用 文本 方式 察看 一 个 二 进 制 文件 的 内 容 ( 或 者 运行 一 个 使 用 BinaryStdOut 的 程序 ) ， 
那 会 看 到 一 团 乱码 ， 内 容 取决 于 使 用 的 系统 。BinaryStdIn 可 以 避 开 对 系统 的 依赖 性 


写 自己 的 程序 来 将 比特 流转 化 为 标准 工具 能 够 处 理 的 内 容 。 例 如 ， 下 页 
调用 了 BinaryStdIn， 将 标准 输入 中 的 比特 按照 0 和 1 的 形式 打印 出 来 。 在 处 理 小 规模 输入 时 这 个 


， 人 允许 我 们 编 
匡 注 所 示 的 程序 BinaryDump 


程序 是 一 个 很 有 用 的 调试 工具 。 类 似 的 工具 HexDump 可 以 将 数据 组 织 成 8 位 的 字 节 并 将 它 打印 为 各 


表示 4 位 的 两 个 十 六 进 制 数 。 用 例 PictureDump 可 以 


j Picture 对 象 表示 比特 ， 其 中 


白色 像素 表示 


0， 黑 色 像 素 表 示 1。 你 可 以 从 本 书 的 网 站 上 下 载 BinaryDump 、HexDump 和 PictureDump ， 请 见 图 


5.3.3。 我 们 一 般 会 用 管道 和 重 定向 等 方式 在 命令 行 处 理 二 进 


由 文件 ， 将 编码 器 的 输出 通过 管道 传递 
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给 BinaryDump、HexDump 或 者 PictureDump， 或 者 将 它 重 定向 到 一 个 文件 之 中 。 


public class BinaryDump 


{ 
public static void main(String[] args) 
int width = Integer.parseInt(args[0]); 
JimnEEent 
for (cnt = 0; !BinaryStdIn.isEmpty() ; cnt++) 
if (width == 0) continue; 
if (cnt != 0 && cnt % width == 0) 
StqdOues pme ln 
if (BinaryStdIn.readBoolean()) 
StaqOueprimtG 
else StdOut.print("0"); 
StdOut.print1nO; 
StqdOue PranalnCent Em bitso): 
; 
b 
将 比特 流 打 印 在 标准 输出 上 (字符 形式 ) 
标准 字符 流 用 十 六 进 制 数 字 表 示 的 比特 流 
% more abra.txt % java HexDump 4 < abra.txt 
ABRACADABRA! 41 42 52 41 
43 41 44 41 
用 0 和 1 表示 的 比特 流 2 2 < 
3 96 bits 
% java BinaryDump 16 < abra.txt 
0100000101000010 用 Picture 对 象 中 的 像素 表示 的 比特 流 
0101001001000001 % 了 pji D 16 6 让 
0100001101000001 6 java PictureDump < abra.txt 
0100010001000001 国 放大 的 16x6 
0100001001010010 像素 图 像 
0100000100100001 
96 bits 96 bits 
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5.5.3 ”查看 比特 流 的 4 种 方法 


5.5.2.4 ASCII 编码 


当 你 使 用 HexDump 查看 一 个 含有 0 .11234 56789ABCD EF 
ASCII 编码 的 字符 的 比特 流 的 内 容 时 , 最 04 昌 全 
好 参考 图 5.5.4。 对 于 给 定 的 两 个 十 六 进 制 。 + 
数字 ， 用 第 一 个 数字 表示 行 、 第 二 个 数字 “| 于 | I# $9 %& CD ”+ 
表示 列 即 可 找到 它 所 表示 的 字符 。 例 如 ， 3|0I|21314|151617|813 |S| 这 | 
31 表示 “1”,， 4A 表示 “J”， 等 等 。 这 4I@QIAIBICIDIEIFIGIHIIIJIIKILIM 0 
张 表 适 用 于 7 位 ASCII 码 ， 因 此 第 一 个 IPIQRSITUIVWXYZIN1^- 
十 六 进 制 数字 必须 是 小 于 等 于 7 的 。 以 0 6 alblcldlelflglhliljlklllmlnlo 
或 者 1 开头 的 数 (以 及 20 和 7F ) 对 应 的 了 pl9jrlsj tulYw| xyY|z| LT 
都 是 无 法 打印 出 来 的 控制 字符 。 许 多 控制 图 5.5.4 ”十 六 进 制 编码 和 ASCII 字符 的 转换 表 
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字符 都 是 为 了 控制 打字 机 时 代 的 物理 设备 而 遗留 下 来 的 产物 。 我 们 在 这 张 表 中 突出 了 一 些 你 可 能 在 
转 储 中 已 经 见 过 的 字符 。 例 如 ，SP 是 空格 符 ，NUL 是 空 字符 ，LF 是 换行 符 ，CR 是 回 车 。 
总 之 ， 在 处 理 数据 压缩 问题 时 ， 除 了 标准 输入 输出 之 外 还 要 能 够 处 理 二 进 制 编码 的 数据 。 
BinaryStdIn 和 BinaryStdOut 提供 了 我 们 所 需要 的 方法 。 它 们 能 够 在 用 例 中 区 分 为 文件 存储 和 数 
据 传输 而 输出 的 信息 ( 供 其 他 程序 使 用 ) 和 为 打印 而 输出 的 信息 〈 供 人 类 阅读 ) 。 815 


5.5.3 ”局限 
为 了 更 好 地 理解 数据 压缩 算法 ， 你 需要 了 解 它 们 的 一 些 局 限 性 。 研 究 人 员 已 经 为 此 打下 了 完整 而 
重要 的 理论 基础 ， 本 节 的 最 后 会 简要 讨论 ， 但 现在 我 们 先 来 探讨 几 个 方便 入 门 的 结论 。 
5.5.3.1 通用 数据 压缩 
在 已 经 学 习 了 许多 重要 问题 的 算法 之 后 ， 你 可 能 会 认为 我 们 的 目标 
是 通用 性 的 数据 压缩 算法 ， 即 一 个 能 够 缩小 任意 比特 流 的 算法 。 但 与 之 
相反 ， 我 们 定 下 的 目标 更 加 朴素 ， 因 为 通用 性 的 数据 压缩 是 不 可 能 存在 
的 ， 请 见 图 5.5.5。 


命题 S$。 不 存在 能 够 压缩 任意 比特 流 的 算法 。 


证 明 。 我 们 来 看 两 种 有 见地 的 证 明 。 第 一 种 采用 的 是 反 证 法 : 假设 
存在 一 个 能 够 压缩 任意 比特 流 的 算法 ， 那 么 也 就 可 以 用 它 压缩 它 自 
己 的 输出 以 得 到 一 段 更 短 的 比特 流 ， 循环 往复 直到 比特 流 的 长 度 为 
01! 能 够 将 任意 比特 流 的 长 度 压缩 为 0 显然 是 荡 课 的 ， 因 此 存在 能 
够 压缩 任意 比特 流 的 算法 的 假设 也 是 错误 的 。 
第 三 种 证 明 方 法 基于 统计 : 假设 有 一 种 算法 能 够 对 所 有 长 度 为 1000 
位 的 比特 流 进行 无 损 压 缩 ， 那 么 每 一 种 能 够 被 压缩 的 比特 流 都 对 应 
着 一 段 较 短 且 不 同 的 比特 流 。 但 长 度 小 于 1000 位 的 比特 流 一 共 只 
有 1+2+4+…+2221222 -2 种 ， 而 长 度 为 1000 位 的 比特 流 一 共有 
2 种 ， 因 此 该 算法 不 可 能 压缩 所 有 长 度 为 1000 的 比特 流 。 如 果 我 
们 声明 更 多 的 和 条件， 那么 这 段 证 明 会 更 有 说 服 力 。 例 如 ， 继 续 假 设 
算法 的 目标 是 取得 大 于 50% 的 压缩 率 ， 那 么 显然 所 有 长 度 为 1000 
位 的 比特 流 中 的 压缩 成 功率 将 只 有 1/2™ ! 


”一 七 < HP 一 ”七 ”< oo CC <— 


"cecAH eH 


换 名 话说， 对 于 任意 数据 压缩 算法 ， 将 长 度 为 1000 位 的 随机 比特 

流 压缩 为 一 半 的 概率 最 多 为 /2”。 当 遇 到 一 种 新 的 无 损 压缩 算法 时 ， 。 图 5.5.5 是 否 存在 通用 

我 们 可 以 肯定 它 是 无 法 大 幅度 压缩 随机 比特 流 的 。 抛 弃 对 压缩 随机 比特 数据 压缩 

流 的 幻想 是 理解 数据 压缩 的 起 点 。 虽 然 我 们 会 经 常 处 理 数 百 万 至 数 十 亿 16 

比特 长 度 的 字符 串 ， 但 处 理 过 的 数据 总 量 只 是 这 种 字符 串 总 数 的 九 牛 一 毛 ， 所 以 不 必 为 这 个 理论 结 

果 而 诅 形 。 事 实 上 ， 经 常 被 处 理 的 比特 字符 串 都 是 非常 有 规律 的 ， 在 压缩 时 可 以 利用 这 一 点 。 

5.5.3.2 不 可 判定 性 
请 见 图 5.5.6， 它 是 一 条 上 百 万 位 的 字符 串 。 这 个 字符 串 看 起 来 很 随机 ， 所 以 你 不 太 可 能 为 它 

找到 一 个 无 损 压缩 算法 。 但 有 一 种 方法 只 用 几 千 个 比特 就 可 以 表示 这 个 字符 串 ， 因 为 它 是 通过 右 下 


817 
2 
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框 注 中 的 程序 生成 的 。( 这 个 程序 是 伪 随 机 数 生 成 器 的 一 个 示例 ， 和 Java.Math .random() 方法 一 


样 。 ) 通过 用 ASCII 文本 编写 生成 程序 来 进行 压缩 、 通 过 读 取 并 运行 该 程序 来 展开 被 压缩 字符 串 的 
( 我 们 还 能 够 降低 这 个 比例 ， 只 要 该 程 
序 再 输出 更 多 比特 即 可 。 ) 压缩 这 个 文件 最 好 的 方法 就 是 找 出 创造 这 些 数据 的 程序 。 这 个 例子 并 不 
像 它 看 起 来 那么 深奥 ， 当 你 在 压缩 一 段 视频 或 是 一 本 通过 扫描 而 数字 化 的 旧书 或 是 互联 网 上 的 无 数 


压缩 算法 能 够 取得 0.3% 的 压缩 率 ， 这 是 非常 难以 超越 的 。 


其 他 类 型 的 文件 时 ， 你 都 在 寻找 创造 这 个 文件 的 程序 。 在 ; 


程序 产生 的 之 后 ,我 们 才能 发 现 计算 理 论 中 的 一 些 深刻 的 问题 并 理解 数据 压缩 所 好 


意识 到 我 们 处 理 的 大 部 分 数据 都 是 由 某 种 
j 临 的 挑 成 。 例 如 ， 


可 以 证 明 最 优 数据 压缩 (找到 能 够 产生 给 定 字 符 串 的 最 短程 序 ) 是 一 个 不 可 判定 的 问题 : 我们 不 但 
不 可 能 找到 能 够 压缩 任意 比特 流 的 算法 ， 也 不 可 能 找到 最 佳 的 压缩 算法 ! 


% java RandomBits | java PictureDump 2000 500 


1000000 bits 


这 些 局 限 性 所 带 来 的 实际 影响 要 求 无 损 压 缩 算 法 必须 尽量 利 
我 们 将 会 依次 讨论 4 种 方法 来 处 理 具备 以 下 结构 特点 的 数据 : 
口 


小 规模 的 字母 表 ; 
口 较 长 的 连续 相同 的 位 或 字符 ; 
D 频繁 使 用 的 字符 ; 
口 较 长 的 连续 重复 的 位 或 字符 。 


如 果 你 已 知 给 定 的 比特 流 中 具有 以 上 J class RandomBits 
一 种 或 多 种 特点 ， 那 么 就 能 够 通过 将 要 学 public static void main(String[] args) 
习 黄 注 将 和 果 . 不 知 并 给 定 下 
习 的 4 种 方 法 将 已 压缩 ; 如 果 不 知 道 给 定 int x = 11111; 
比特 流 具 有 的 特点 ， 也 可 以 用 它们 碰 碰 运 for (int i = 0; i < 1000000; i++) 
， i SR { 
气 ， 因 为 你 的 数据 结构 也 许 并 不 是 那么 明 人 
显 ， 而 这 些 方法 的 适用 性 很 广 。 你 将 会 看 BinaryStdOut.writeCx > 0); 
y 个 参数 和 恋 } } 
到 ， 每 种 方法 者 有 乡 个 参数 和 变种 ， 并 有 A 
可 以 为 特定 的 比特 流 调 优 以 达到 最 佳 的 压 } 


缩 率 。 第 一 个 和 最 后 一 个 示例 是 为 了 帮助 } 
你 了 解数 据 的 结构 ， 接 下 来 我 们 会 学 习 一 
个 方法 来 压缩 示例 数据 。 


5.5.4 热身 运动 : 基因 组 


在 讨论 更 加 复杂 的 数据 压缩 问题 之 前 ， 我 们 先 来 处 理 一 个 初级 的 ( 但 也 十 分 重要 的 ) 数据 压 


到 5.5.6 ”一 个 难以 压缩 的 文件 : 100 万 ( 伪 ) 随机 比特 


“被 压缩 后 的 ”一段 上 百 万 比特 的 数据 流 


任务 。 我 们 在 这 个 例子 中 会 介绍 一 些 约 定 ， 它 们 将 适用 于 本 节 中 的 所 有 实现 。 


j 被 压缩 的 数据 流 中 的 已 知 结构 。 


缩 


5.5 数据 压缩 二 535 


5.5.4.1 ”基因 数据 

作为 数据 压缩 的 第 一 个 示例 ， 请 看 下 面 这 个 字符 串 : 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGCAT 
如 果 使 用 标准 的 ASCII 编码 ( 每 个 字 


public static void compress() 


符 1 个 字 节 ，8 位 ) ， 这 个 字符 串 的 比特 流 { 
长 度 为 8x35=280 位 。 这 种 字符 串 在 现代 生 Alphabet DNA = new Alphabet("ACTG"); 
、 i 、 eu String s = BinaryStdIn.readSstring() ; 
物 学 中 非常 重要 ,因为 生物 学 家 用 字母 A、C、 int N = s.length(); 
T 和 G 来 表示 生物 体 的 DNA 中 的 四 种 碱 基 。 BinaryStdOut .writeCN); 
We A om = 0 < Ne rt) 
基因 就 是 一 条 碱 基 的 序列 。 科 学 家 认识 到 理 { ”// 将 字符 用 双 位 编码 代码 表示 
解 基因 的 性 质 是 理解 它们 在 活体 器 官 中 如 何 int d = DNA.toIndex(s.charAt(i)); 
、 网 BinaryStdOut.write(d, DNA.1gRO); 
作用 的 关键 ,包括 生命 、 死 亡 和 疾病 。 许 多 } 
生物 的 基因 现在 都 是 已 知 的 ， 而 一 些 科学 家 BinaryStdOut. closeO; 
天 } 
正在 编写 程序 来 分 析 这 些 序列 的 结构 。 
5.5.4.2” 双 位 编码 压缩 基因 数据 的 压缩 方法 


基因 的 一 个 简单 性 质 是 ， 它 由 4 种 不 同 
的 字符 组 成 。 这 些 字符 可 以 用 两 个 比特 编 


人 码 ， 如 右 侧 的 compress (0) 方法 所 示 。 尽 管 public static void expand() 
我 们 知道 输入 流 是 由 字符 组 成 的 , 但 是 仍然 E Alphabet DNA = new Alphabet("ACTG"); 
可 以 使 用 BinaryStdIn 来 读 取 这 些 输入 以 int w = DNA.1gRO; 

a 上 y int N = Bi StdIn.readInt() ; 
和 标准 的 数据 压缩 模型 保持 一 致 (从 比特 流 ed ad 
到 比特 流 ) 。 我 们 在 压缩 后 的 文件 中 记录 了 人 
、 7 pr Wp 上 二 E Ny cnar Cc = BinaryStdaln.rea ar(wWw); 
被 编码 的 字符 数量 ， 这 样 即使 最 后 一 位 并 没 BinaryStdOut.write(DNA.toChar(c)); 
有 和 字 节 对 齐 ， 解 码 也 能 够 顺利 进行 。 因 为 了 


全 | 了 汪汪 = 、 过 本 Bi Std0 Cl 3 
它 能 够 将 一 个 8 位 的 字符 转换 为 一 个 双 位 编 0 


码 ， 且 附加 32 位 用 于 记录 总 长 度 ， 上 方程 
序 的 压缩 率 会 随 着 压缩 字符 的 增多 越 来 越 接 基因 数据 的 展开 方法 
近 25%。 
5.5.4.3” 双 位 编码 展开 

右边 框 注 中 的 expand0 方法 能 够 将 这 个 compress (0 方法 产生 的 比特 流 展开 。 和 压缩 时 一 样 ， 
该 方法 会 按照 数据 压缩 的 基础 模型 读 取 一 个 比特 流 并 输出 一 个 比特 流 。 它 输出 的 比特 流 和 原始 输入 
相同 。 

相同 的 方法 也 适用 于 其 他 字母 表 大 小 固定 的 字符 串 , 但 我 们 将 它 的 推广 留 作 (简单 的 ) 习 题 ( 请 
见 练习 5.5.25 ) 。 

这 些 方法 和 数据 压缩 的 基础 模型 并 不 完全 一 致 ， 因 为 编码 后 的 比特 流 中 并 没有 包含 将 其 解码 所 
需 的 所 有 信息 。 由 A、C、T、G 4 个 字母 组 成 的 字母 表 只 是 两 个 方法 之 间 的 约定 。 这 种 约定 在 基因 
组 这 种 应 用 中 是 合理 的 ， 因 为 这 些 编码 会 被 大 量 复 用 。 但 在 其 他 的 场景 中 ， 字 母 表 也 可 能 需要 包含 
在 被 编码 的 信息 中 (请 见 练习 5.5.25 ) 。 在 比较 数据 压缩 的 方法 时 我 们 通常 都 要 计 人 这 些 成 本 。 

在 基因 组 学 的 早期 , 分 析 一 段 染 色 体 序列 是 一 个 漫长 而 艰苦 的 任务 ， 因此 已 知 的 序列 都 相对 较 短 ， 
科学 家 可 以 用 标准 的 ASCII 编码 来 存储 和 交换 它们 。 现 在 ， 这 个 实验 流程 的 效率 已 经 大 大 提高 了 ， 已 知 


的 基因 组 的 数量 非常 多 而 且 都 很 长 人 类 的 基因 组 长 度 超过 10" 比特 ) 。 用 这 些 简单 的 方法 就 能 节省 
75% 的 空间 已 经 非常 可 观 了 。 还 有 继续 压缩 的 余地 吗 ? 这 是 一 个 非常 有 趣 的 问题 ， 因 为 这 是 一 个 科学 问 
题 : 继续 压缩 的 潜力 意味 着 这 些 数据 中 还 存在 着 某 种 结构 ， 而 现代 基因 组 学 的 重点 就 是 希望 从 基因 数据 
中 发 现 更 多 的 结构 。 我 们 将 会 学 习 的 一 些 标准 数据 压缩 方法 对 于 (经 过 双 位 编码 压缩 后 的 ) 基因 数据 并 
没有 什么 效果 ， 和 处 理 随机 数据 类 似 。 


小 型 测试 用 例 (264 位 ) 


% more genomeTiny .txt 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


java BinaryDump 64 < genomeTiny.txt 
0100000101010100010000010100011101000001010101000100011101000011 
0100000101010100010000010100011101000011010001110100001101000001 
0101010001000001010001110100001101010100010000010100011101000001 
0101010001000111010101000100011101000011010101000100000101000111 
01000011 

264 bits 


% java Genome - < genomeTiny .txt 
?? 一 一 在 标准 输出 上 无 法 看 到 比特 流 


% java Genome - < genomeTiny.txt | java BinaryDump 64 
0000000000000000000000000010000100100011001011010010001101110100 
1000110110001100101110110110001101000000 

104 bits 


% java Genome - < genomeTiny.txt | java HexDump 8 
00 00 00 21 23 2d 23 74 

8d 8c bb 63 40 

104 bits 


% java Genome - < genomeTiny.txt > genomeTiny.2bit 
% java Genome + < genomeTiny.2bit 
ATAGATGCATAGCGCATAGCTAGATGTCGCTAGC 


% java Genome - < genomeTiny.txt | java Genome + ee ee 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC ‘ 全 人 


一 个 真实 的 病毒 (50 000 位 ) 


% java Geno 


me - < genomeVirus.txt | java P 


ictureDump 512 25 
Sa + 


pr 


Cr hy 


局 cy 


: Faho 5 
12536 bits 


出 


图 5.5.7 使 用 双 位 编码 压缩 和 展开 基 


组 序列 
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我 们 将 compress() 和 expand() 作为 : 
静态 方法 和 一 个 简单 的 用 例 打包 在 一 个 相同 。 “ss enome 
的 类 中 ， 如 框 注 代 码 所 示 。 为 了 测试 你 对 aa 1 TS 人 
游戏 规则 的 理解 和 我 们 用 于 数据 压缩 的 基 
本 工具 ， 请 研究 图 5.5.7 中 的 各 种 命令 。 它 人 
们 调用 了 Genome.compress() 和 Cenome public static void main(String[] args) 


expandQ 来 处 理 样本 数据 ( 以 及 输出 ) 。 Ea 


819 
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if (args[0] .equals("-")) compress() ; 


B55 游程 编码 if (args[0] .equals("+")) expandQO; 
比特 流 中 最 简单 的 匈 余 形式 就 是 一 长 1 
重复 的 比特 。 下 面 我 们 学 习 一 种 经 典 的 游 数据 压缩 方法 的 打包 方式 
程 编码 (Run-Length Encoding ) 来 利用 这 种 
匈 余 压缩 数据 。 例 如 ， 请 看 下 面 这 条 40 位 长 的 字符 串 : 
0000000000000001111111000000011111111111 
该 字符 串 含 有 15 个 0， 然 后 是 7 个 1， 然后 是 7 个 0， 然 后 是 11 个 1， 因此 我 们 可 以 将 该 比特 字符 
串 编码 为 15，7，7，11。 所 有 的 比特 字符 串 都 是 由 交替 出 现 的 0 和 1 组 成 的 ， 因 此 我 们 只 需要 将 游程 的 
长 度 编码 即 可 。 在 这 个 例子 中 ， 如 果 用 4 位 表示 长 度 并 以 连续 的 0 作为 开头 ， 那 么 就 可 以 得 到 一 个 16 位 
长 的 字符 串 (15=1111，7-0111，7=0111，11=1011 ) : 


HH 


1111011101111011 
压缩 率 为 16/40=40%。 为 了 将 这 里 的 描述 转化 成 一 种 hh 
java BinaryDump < q32x48.bin 
有 效 的 数据 压缩 方法 ， 我 们 需要 解决 以 下 几 个 问题 。 


0000000000000000000000 
00000000000000011111110000000000 15 7 10 


本 本 
口 应 该 使 用 多 少 比特 来 记录 游程 的 长 度 ? 0 Bs 
口 A 00000000111100000000011111100000 省 生存 
口 当 某 个 游程 的 长 度 超过 了 能 够 记录 的 最 大 长 度 时 00000001110000000000001111100000 2 312 5 5 
AL 00000111100000000000001111100000 5 人 
AN 入 办 ? 00001111000000000000001111100000 4 414 5 5 
00001111000000000000001111100000 和 与 
人 口 牛马 .七 米 00011110000000000000001111100000 汪汪 :全 海 
口 当 游 程 的 长 度 所 需 的 比特 数 小 于 记录 长 度 的 比特 90011110000000000000001111100000 2 513 55 
3 吸力 00111110000000000000001111100000 全 世 省 和 
数 时 怎 入 办 ? 00111110000000000000001111100000 必 ， 
00111110000000000000001111100000 2 313 353 
;> 介 ] 咸 这 3 A 和 we AH /NI 此 1111100000 2 51 
我 们 感 兴趣 的 主要 是 含有 的 短 游程 相对 较 少 的 长 比 。 063310000000000000001111100000 ?5B 55 
001111100000000000000011: 有 人， 通 
特 流 ， 因此 这 些 问题 的 回答 是 : 00111111000000000000001111100000 2 614 5 5 
00111111000000000000001111100000 3 2 3 : 
J » Y » 00011111100000000000001111100000 
口 游程 长 度 应 该 在 0 到 255 之 间 ， 使 用 8 位 编码 :0000000000000001 00000 2 
= Ee Ne 00001111111000000000001111100000 烽 六 本 
D 在 需要 的 情况 下 使 用 长 度 为 0 的 游程 来 保证 所 有 o0000113111200000000001111100000 5 71055 
游程 的 长 度 均 小 于 256; Qo000d 00 net 人 
00000000000011111000001111100000 2 2 
vA ea NE 了 00000000000000000000001111100000 
口 我 们 也 会 将 较 短 的 游程 编码 ， 虽 然 这 样 做 有 可 能 。 90000000000000000000001111100000 32 5 
< 00 和 
使 输出 变 得 更 长 。 B0000009000 00 oo 2 
00000000000000000000001111100000 3 E 和 
000000000000000000000011111000 5 
这 些 决定 非常 容易 实现 而 且 对 于 实际 应 用 中 经 常 出 00000000000000000000001111100000 22 5 5 
00000000000000000000001111100000 2 和 2 
十 | ~ A Wy 00000000000000000000001111100000 
现 的 几 种 比特 流 十 分 有 效 。 它 们 不 适用 于 含有 大 量 短 游 。 oo000ooo000ooo000000001111100000 2 55 
口 证 万 大 人 J 本 ~ eS [ 00000000000000000011111111111100 18 12 2 
程 的 输入 一 一 只 有 在 游程 的 长 度 大 于 将 它们 用 二 进 制 表 。。 00000000000000008111111111111110 1 1 
二 二 E 全 已 十 广 0000000000000000000000 000000 pA 
示 所 需 的 长 度 时 才能 节省 空间 。 人 本 
1 


5.5.5.1 位 图 


让 程 编码 效果 的 个 去 例 ， 汶 里 探讨 位 图 、 它 。 图 5.5.8 一 幅 典 型 的 位 图 ， 每 行 的 游程 
作为 游程 编码 效果 的 一 个 示例 ， 这 里 探讨 位 图 。 它 了 
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字 符 串 


被 广泛 用 于 保存 图 
我 们 可 以 用 PictureDump 查看 位 


像 和 扫描 文档 ,简单 起 见 ,我 们 将 二 进 制 位 图 数据 组 织 为 将 像素 按 行 排列 的 比特 流 。 
图 的 内 容 。 用 程序 将 为 “ 截 


屏 ” 或 是 “扫描 文档 ”所 定义 的 多 种 常 


见 的 无 损 图 像 格式 转化 为 位 图 十 分 简单 ( 请 见 练习 5.5.x ) 。 这 里 用 来 展示 游程 编码 的 效果 的 示例 来 


自 本 书 的 图 像 : 一 个 字符 “q”( 各 种 分 辩 率 ) 。 我 们 的 重点 是 一 


如 图 5.5.8 所 示 ， 每 行 的 右 侧 为 该 行 的 游程 编码 。 


郧 32 x 48 像素 的 截图 的 二 进 制 转 储 ， 


因为 每 行 的 开始 和 结束 都 是 0， 所 以 每 行 的 游程 数 


量 都 是 奇数 。 因 为 一 行 的 结束 之 后 就 是 男 一 行 的 开始 ， 所 以 比特 流 中 相对 应 的 游程 的 长 度 就 是 每 一 
行 的 最 后 一 个 游程 的 长 度 和 下 一 行 的 第 一 个 游程 的 长 度 之 和 ( 全 部 为 0 的 行 则 应 该 继续 相 加 ) 。 


5.5.5.2 ”实现 

由 刚才 给 出 的 非 正式 描述 可 以 立即 得 

到 右边 框 注 中 的 compressQ) 和 expandQO 

方法 。 和 以 前 一 样 ，expandQ 的 实现 相对 

简单 : 读 取 一 个 游程 的 长 度 ， 将 当前 比特 

按照 长 度 复 制 并 打印 ， 转 换 当 前 比特 然后 

继续 ， 直 到 输入 结束 。compress0 方法 也 

很 简单 。 对 于 输入 ， 它 进行 了 以 下 操作 : 

口 读 取 一 个 比特 ; 

口 如 果 它 和 上 一 个 比特 不 同 ， 写 入 当 

前 的 计数 值 并 将 计数 器 归 零 ; 

口 如 果 它 和 上 一 个 比特 相同 且 计 数 器 
已 经 到 达 最 大 值 ， 则 写 和 人 计数 值 ， 


public static void expand() 


boolean b = false; 
while (!BinaryStdIn.isEmptyO)) 
{ 
char cnt = Binary9StdIn.readChar() ; 
for (int 1 = 0; 1 < ent; i++) 
BinaryStdOut .write(b); 
b= 1b; 


BinaryStdOut.closeQ); 


public static void compress() 


ehamente=0 
boolean b, old = false; 
while (!BinaryStdIn.isEmptyO)) 


再 写 入 一 个 0 计数 值 ， 然后 将 计数 b = BinaryStdIn.readBoolean() ; 
器 归 零 ; i do = Dah 
口 增加 计数 器 的 值 。 BinaryStdOut.write(cnt); 
当 输 入 流 结束 时 ， 写 入 计数 值 ( 最 后 An 
一 个 游程 的 长 度 ) 并 结 } 
5.5.5.3 ”提高 位 图 的 分 辩 率 
游程 编码 广泛 用 于 位 图 的 主要 原因 是 ， if (cnt -- 255) 
随 着 分 辩 率 的 提高 它 的 效果 也 会 大 大 的 提 De 
高 。 证 明 这 一 点 很 简单 。 假 设 将 上 一 个 例 es 
子 中 的 分 辩 率 提高 一 倍 ， 则 很 容易 得 到 : 
口 总 比特 数 变 为 了 原来 的 4 倍 ; ee 
口 游程 的 数量 变 为 约 原来 的 2 倍 ; } 
口 游程 的 长 度 变 为 约 原来 的 2 倍 ; 人 
D 压缩 后 的 比特 数量 变 为 约 原 来 的 2 } 
信 ; 
| 游程 编码 的 压缩 和 展开 方法 
未 使 用 游程 编码 时 ， 当 分 辩 率 提高 一 
倍 时 图 像 所 需 空间 变 为 原来 的 4 倍 ; 使 用 了 游程 编码 后 ， 当 分 辩 率 提高 一 倍 时 压缩 后 的 比特 流 的 


长 度 仅 变 为 了 原来 的 2 倍 。 也 就 是 说 ， 随 着 所 需 空间 的 增 大 ， 压 缩 比 和 分 辩 率 成 反比 。 例 如 ， 我 
们 的 字母 “q” (在 低 分 辨 率 时 ) 的 压缩 率 为 74%; 如 果 将 分 辨 率 提高 到 64 x 96， 压 缩 比 就 下 降 为 
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37%。 我们 从 图 5.5.9 中 PictureDump 的 输出 中 可 以 明显 看 出 这 个 变化 。 高 分 辨 率 的 字符 图 像 所 需 
的 空间 是 低 分 辨 率 字 符 图 像 的 4 售 ( 两 个 维度 上 的 长 度 均 加 倍 ) ,但 压缩 后 的 版 本 所 需 的 空间 仅 为 


原来 的 2 倍 〈 只 在 一 个 维度 上 增 倍 ) 。 如 果 继 续 将 分 辨 率 提高 到 128 x 192( 接近 于 打印 所 需 的 分 辩 1822 


率 ) ， 压 缩 比 则 会 下 降 到 18% ( 请 见 练习 5.5.5 ) 。 824 


小 型 测试 


例 (40 位 ) 


% java BinaryDump 40 < 4runs.bin 
0000000000000001111111000000011111111111 
40 bits 


% java RunLength - < 4runs.bin | java HexDump 
of 07 07 0b 
32 bits 


压缩 比 32/40=80% 


% java RunLength - < 4runs.bin | java RunLength + | java BinaryDump 40 
0000000000000001111111000000011111111111 -一 压缩 -展开 得 到 了 原始 输入 
40 bits 


ASCII 文 本 (96 位 ) 


% java RunLength - < abra.txt | java HexDump 24 

OleOaO05eOOILOIELO4 OILREOZROIEOIREOI LO2 OILO2 OO5 OILEOTIREOIEO4 020d 0 
05E0dOIEOIEOSEOIEOS OILREOSROIEOIEOIO4 LO LO2 OOIEOLROZROTEOZ OILOSROT 
02 01 04 01 
416 bits < 一 压缩 比 416/96=433% 一 一 请 勿 使 用 游程 编码 来 处 理 ASCII 文 本 ! 


一 幅 位 图 (1536 位 ) 


% java RunLength - < q32x48.bin > q32x48.bin.rle 
% java HexDump 


4f 07 
Ob 04 
08 04 
07 05 
07 05 
08 06 
0a 07 
05 05 
bu05 


16 


Of 
0a 
08 
07 


% java PictureDump 32 48 < q32x48.bin 


16 < q32x48.bin.rle 
04 04 09 0d 04 09 06 0c 03 0c 05 
04 0d 05 09 04 0e 05 09 04 0e 05 


04 of 05 07 05 Of 05 07 05 Of 05 ee ite 
Qosuoos om os Ooms eo 0s % java PictureDump 32 36 < q32x48.rle.bin 
05 Of 05 07 06 0e 05 07 06 0e 05 - 全 

06 0d 05 09 06 0c 05 09 07 0b 05 

08 07 06 0c 14 Oe Ob 02 05 11 05 


05 lb 05 lb 05 lb 05 lb 05 1b 05 . 
05 lb 05 la 07 16 0c 13 Oe 41 1144 bits 


1144 bits < 一 压缩 比 1144/1536=74% 


一 幅 分 辩 率 更 高 的 位 


% java PictureDump 64 96 < q64x96.bin 


图 (6144 位 ) 


% java BinaryDump 0 < q64x96.bin 


6144 bits 


% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 bits < 压缩 比 2296/6144=37% 


游程 编码 在 认 


6144 bits 
% java PictureDump 64 36 < q64x96.bin.rle 


Hy 


2296 bits 


到 5.5.9 ”使 用 游程 编码 压缩 和 展开 比特 流 
F 多 场景 中 非常 有 效 ， 但 在 许多 情况 下 我 们 希望 压缩 的 比特 流 并 不 含有 较 长 的 游程 


(例如 典型 的 英文 文档 ) 。 下 面 我 们 来 学 习 两 种 适用 于 多 种 类 型 的 文件 压缩 算法 。 它 们 的 应 用 非常 
广泛 ， 在 从 网 络 上 下 载 文件 时 很 可 能 就 用 到 了 它们 。 825 
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5.5.6 ” 霍 夫 曼 压 缩 

我 们 现在 来 学 习 一 种 能 够 大 幅 压 缩 自 然 语言 文件 空间 ( 以 及 许多 其 他 类 型 文件 ) 的 数据 压缩 技 
术 。 它 的 主要 思想 是 放弃 文本 文件 的 普通 保存 方式 : 不 再 使 用 7 位 或 8 位 二 进 制 数 表示 每 一 个 字符 ， 
而 是 用 较 少 的 比特 表示 出 现 频率 高 的 字符 ， 用 较 多 的 比特 表示 出 现 频率 低 的 字符 。 
为 了 说 明 这 个 概念 , 先 来 看 一 个 简单 的 示例 .假设 需要 将 字符 串 A B RA CADA BRA ! 编 码 。 
由 7 位 ASCII 字符 编码 我 们 可 以 得 到 比特 字符 串 : 


100000110000101010010100000110000111000001- 
100010010000011000010101001010000010100001. 


要 将 这 段 比 特 字符 串 解码 ,只 需 每 次 读 取 7 位 并 根据 图 5.5.4 的 ASCII 编码 表 将 它 转换 为 字符 。 
在 这 种 标准 的 编码 下 ， 只 出 现 了 一 次 的 D 和 出 现 了 5 次 的 A 所 需 的 比特 数 是 一 样 的 。 堆 夫 曼 压缩 的 
思想 是 通过 用 较 少 的 比特 表示 出 现 频繁 的 字符 而 用 较 多 的 比特 表示 偶尔 出 现 的 字符 来 节省 空间 ， 这 
样 字 符 串 所 使 用 的 总 比特 数 就 会 降低 。 
5.5.6.1 变 长 前 缀 码 

和 每 个 字符 所 相关 联 的 编码 都 是 一 个 比特 字符 串 ， 就 好 像 有 一 个 以 字符 为 键 、 比 特 字符 串 为 值 
的 符号 表 一 样 。 我 们 可 以 试 着 将 最 短 的 比特 字符 串 赋予 最 常用 的 字符 , 将 A 编码 为 0、B 编码 为 1、 
R 为 00、C 为 01、D 为 10、! 为 11。 这 样 ABRACADABRAI 的 编码 就 是 010000101001 
00 0 11。 这 种 表示 方法 只 用 了 17 位, 而 7 位 的 ASCII 编码 则 用 了 84 位 。 但 这 种 表示 方法 并 不 完整 ， 
因为 它 需要 空格 来 区 分 字符 。 如 果 没 有 空格 ， 比 特 字 符 串 就 会 变 成 这 个 样子 : 

01000010100100011 

它 也 可 以 被 解码 为 CR R D D C R CB 或 是 其 他 字符 串 。 但 17 位 加 上 11 个 分 隔 符 也 比 标准 的 
编码 要 紧凑 的 多 了 ， 没 有 用 于 编码 的 比特 字符 不 会 在 这 条 消息 中 出 现 。 如 果 所 有 字符 编码 都 不 会 成 
为 其 他 字符 编码 的 前 级 ， 那 么 就 不 需要 分 隔 符 了 。 下 一 步 我 们 就 要 做 到 这 一 点 。 含 有 这 种 性 质 的 编 
人 码 规则 叫做 前 组 码 。 刚 才 我 们 给 出 的 编码 并 不 是 前 级 码 ， 因 为 A 的 编码 0 就 是 的 编码 00 的 前 绥 。 
例如 ， 如 果 我 们 将 A 编码 为 0、B 为 1111、C 为 110、 DD 为 100、R 为 1110、! 为 101， 那 么 将 以 下 
长 为 30 的 比特 字符 串 解 码 的 方式 就 具有 ABRACADABRAI 一 种 了 : 

011111110011001000111111100101 

所 有 的 前 绥 码 的 解码 方式 都 和 它 一 样 ， 是 唯一 的 〈 不 需要 任何 分 隔 符 ) ， 因 此 前 级 码 被 广泛 应 
用 于 实际 生产 之 中 。 注 意 , 像 7 位 ASCII 编码 这 样 的 定 长 编码 也 是 前 级 码 。 
5.5.6.2 前缀 码 的 单词 查找 树 

表示 前 级 人 码 的 一 种 简便 方法 就 是 使 用 单词 查找 树 (请 见 5.2 节 ) 。 事 实 上 ， 任 意 含有 M 个 空 链 
接 的 单词 查找 树 都 为 M 个 字符 定义 了 一 种 前 级 码 方法 : 我 们 将 空 链 接替 换 为 指向 叶子 结 点 〈 含 有 
两 个 空 链接 的 结 点 ) 的 链接 ， 每 个 叶子 结 点 都 含有 一 个 需要 编码 的 字符 。 这 样 ， 每 个 字符 的 编码 就 
是 从 根 结 点 到 该 结 点 的 路 径 表 示 的 比特 字符 串 ， 其 中 左 链接 表示 0， 右 链接 表示 1。 例如， 图 5.5.10 
显示 了 字符 串 A B RA CADAB RA 1 中 的 字符 的 两 种 前 级 人 码 方式 。 上 方 的 例子 就 是 我 们 刚才 提 到 
的 编码 方式 ， 下 方 的 编码 得 到 的 比特 字符 串 为 : 

11000111101011100110001111101 

该 字符 串 只 有 29 位 ， 比 上 一 种 少 1 位 。 是 否 存 在 能 够 压缩 得 更 多 的 单词 查找 树 呢 ?我 们 如 何 
才能 找到 压缩 率 最 高 的 前 级 人 码 ?” 实 际 上 ， 这 些 问 题 都 有 一 个 优雅 的 解 。 有 一 种 算法 能 够 为 任意 字符 
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串 构造 一 棵 能 够 将 比特 流 最 小 化 的 单词 查找 树 。 为 编译 表 单词 查找 树 的 表示 


了 公平 比较 各 种 编码 ， 还 需要 计算 编码 本 身 所 需 的 。 包 仿 


空间 , 因为 没有 它 就 无 法 将 字符 串 解码 。 你 会 看 到 ， A 0 
编码 的 方式 是 和 字符 串 相关 的 。 寻 找 最 优 前 级 码 的 i 
通用 方法 是 D.Huffman 在 1952 年 发 现 的 ( 当时 他 D 100 iy of 1 
还 是 个 学 生 ! ) ， 因 此 被 称 为 霍 夫 曼 编码 。 i De 
5.5.6.3 概述 0 (RB 
i Ew i y 本 有 后 引 字符 串 
又 。 我 们 将 待 编码 的 比特 流 看 作 一 个 字 节 流 并 按照 。 A B RACA DA B RA 
以 下 方式 使 用 前 级 码 : 编译 表 
口 构造 一 棵 编码 单词 查找 树 ; 键 什 
1 
口 将 该 树 以 字 节 流 的 形式 写 入 输出 以 供 展开 AS 
时 使 用 ; B 00 
口 使 用 该 树 将 字 节 流 编码 为 比特 流 。 
在 展开 时 需要 : R 011 
` 去 二 词 查找 本 圭 流 摧 3 
品读 到 单词 查找 树 (保存 在 比特 流 的 开头 ) ;证 goatgtt 和 这 和 
口 使 用 该 树 将 比特 流 解 码 。 11000111101011100110001111101 < 一 29 bits 
为 了 帮助 你 更 好 地 理解 和 领会 这 个 过 程 ， 我 们 NENA SA DOE RA 
将 按照 难度 逐个 考察 这 些 步 又 。 司 5.5.10 ”两 种 不 同 的 前 绥 码 


5.5.6.4 ”单词 查找 树 的 结 点 

我 们 首先 遇 到 的 是 如 后 面 框 注 所 示 的 Node 类 。 它 和 我 们 曾经 用 来 构造 二 又 树 和 单词 查找 树 的 
衣 套 类 相似 : 每 个 Node 对 象 都 含有 指向 其 他 Node 对 象 的 1eft 和 right 引用 ， 这 定义 了 单词 查找 
树 的 结构 。 每 个 Node 对 象 还 包含 一 个 实例 变量 freq， 构 造 函 数 会 用 到 它 。 男 一 个 实例 变量 ch 用 
于 表示 叶子 结 点 中 需要 被 编码 的 字符 。 


private static class Node implements Comparable<Node> 
{ // 霍 夫 曼 单词 查找 树 中 的 结 点 
private char ch ; // 内 部 结 点 不 会 使 用 该 变 
private int freq; // 展开 过 程 不 会 使 用 该 变 
private final Node left, right; 


局 
里 
本 
人 


Node(char ch, int freq, Node left, Node right) 


this.ch =en 

this.freq = freq; 

this.left = left; 

hsaright Mughs 
和 


public boolean isLeaf() 
etnnleft= no eioghe nu 


public int compareTo(Node that) 
{ return this.freq - that.freq; } 


单词 查找 树 的 结 点 表示 


828 


public static void expand() 


5.5.6.5 “使 用 前 缀 码 展开 


{ 有 了 定义 前 级 人 码 的 单词 查找 树 ， 扩 展 被 编 
Ne reo < TSEOITUSG 码 的 比特 流 就 简单 了 。 左 边框 注 中 的 expand QO 
int N = BinaryStdIn.readInt() ; 、 ey 
for (Cint i = 0; i < N; i++) 方法 实现 了 这 个 过 程 。 在 从 标准 输入 中 使 用 后 
{ et md 文 所 述 的 readTrie0) 方法 读 取 了 单词 查找 树 

ode x = root; 
while (lx.isLeaf()) 之 后 ， 用 它 将 比特 流 的 其 余部 分 展开 : 根据 比 
if (BinaryStdIn.readBooleanO) 特 流 的 输入 从 根 结 点 开始 向 下 移动 ( 读 取 一 个 
ET 
else x = x.left; 比特 ， 如 果 为 0 则 移动 到 左 子 结 点 ， 如 果 为 1 
BinaryStdOut.write(x.ch); 则 移动 到 右 子 结 点 ) 。 当 遇 到 叶子 结 点 后 ， 输 
BinaryStdOut.close() ; 出 该 结 点 的 字符 并 重新 回 到 根 结 点 。 如 果 你 仔 
} 细 研 究 这 个 方法 在 图 5.5.11 中 的 小 型 前 级 码 示 
9 表现 ， 就 能 够 理解 这 个 过 程 。 例 如 ， 
前 绥 码 的 展开 (解码 ) 例 中 的 表现 ， 就 能 够 理解 这 个 过 程 。 例 如 ， 在 
解码 比特 流 011111001011... 时 ， 从 根 结 点 开始 ， 
因为 第 一 个 比特 是 0， 所 以 移动 到 左 子 结 点 ， 输 出 A; 回 到 根 结 点 ， 向 右 子 结 点 移动 3 次 ， 然 后 输 


出 B; 回 到 根 结 点 ， 向 右 子 结 点 移动 两 次 ， 左 子 结 点 移动 1 次 ， 输 出 R; 如 此 往复 。 展 开 的 简单 性 


也 是 前 级 码 ， 特 别 是 霍 夫 曼 压缩 算法 流行 的 原因 之 一 。 
5.5.6.6 ”使 用 前 缀 码 压 缩 


编译 表 单词 查找 树 的 表示 


在 压缩 时 ， 我 们 使 用 单词 查找 树 定义 的 编码 来 构造 编 ”全 秆 。 ,0 
译 表 ， 如 后 面 框 注 中 的 bui1dCode 0 方法 所 示 。 该 方法 短 人 oI9 Bs 
小 而 优雅 , 其 巧妙 之 处 值得 仔细 研究 ,对 于 任意 单词 查找 树 ， B111 
它 都 能 产生 一 张 将 村 中 的 字符 和 比特 字符 串 (用 由 0 和 1 5 1011 如 二 
组 成 的 String 字符 串 表示 ) 相对 应 的 编译 表 。 编 译 表 就 是 。 R 110 从 (RB 
一 张 将 每 个 字符 和 它 的 比特 字符 串 相 关联 的 符号 表 : 为 了 
提升 效率 ， 我 们 使 用 了 一 个 由 字符 索引 的 数组 st[] 而 非 普 图 5.5.11 一 种 霍 夫 曼 编 码 
通 的 符号 表 ， 因 为 字符 的 数量 并 不 多 。 在 构造 该 符号 表 时 ， 
bui1dCodeQ 递归 遍历 整 棵 树 并 为 每 个 结 点 维护 了 一 条 从 根 结 点 到 它 的 路 径 所 对 应 的 二 进 制 字符 串 
(0 表示 左 链接 ，1 表示 右 链 接 ) 。 每 当 到 达 一 个 叶子 结 点 时 ， 算 法 就 将 结 点 的 编码 设 为 该 二 进 制 
字符 串 。 编 译 表 建 立 之 后 ， 压 缩 就 很 简单 了 ， 只 需 在 其 中 查找 输入 字符 所 对 应 的 编码 即 可 。 使 用 后 

面 框 注 中 的 编码 压缩 AB 


private static String[] buildCode(Node root) 


‘ 


} 


private static void buildCode(String[] st, Node x, String s) 


// 使 用 单词 查找 树 构造 编译 表 


String[] st = new String[R]; 


uilicdGodelCse rooc mn ni 
return st; 


{ // 使 用 单词 查找 树 构造 编译 表 (递归 ) 


TifEGXSTSLEaT 的 力 
steno eun， 
buildCode(st, x.left, 


通过 前 绥 码 字 


S 十 
buildCode(st, x.right, s + 


} 
OR 
Te 


4 查找 树 构 建 编译 表 


RACADABRA!, 首 
先 写 人 0 (A 的 编码 ) ， 
然后 是 111 (B 的 编码 ) ， 
然后 是 110 (R 的 编码 ) ， 
等 等 。 框 注 中 的 这 一 段 
代码 完成 的 任务 是 查找 
输入 的 每 个 字符 所 对 应 
的 编码 String 对 象 ， 将 
char 数组 中 字符 转化 为 
0 和 1 的 值 并 写 人 输出 的 
比特 字符 串 中 。 
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5.5.6.7 单词 查找 树 的 构造 


for (int i = 0; i < input.length; i++) 


{ 作为 描述 过 程 的 参考 ， 图 5.5.12 展 
String code = st[input[i]]; 示 了 为 以 下 输入 构造 一 棵 霍 夫 曼 单词 碍 
for (int j = 0; j < code.length(O); j++) . ee 

if (code.charAt(j) == '1') 找 树 的 过 程 : 

BinaryStdOut.write(true); _ _ 

else BinaryStdOut.write(false); 1t Was the best of times it was the 

} worst of times 
ee 我 们 将 需要 被 编码 的 字符 放 在 叶子 
便 用 缠 尝 胡 的 奈 闹 结 点 中 并 在 每 个 结 点 中 维护 了 一 个 名 为 
freq 的 实例 变量 来 表示 以 它 为 根 结 点 的 子 树 中 的 所 有 字符 出 现 的 频率 。 构 造 的 第 一 步 是 创建 一 片 由 许 
多 只 有 一 个 结 点 〈 即 叶子 结 点 ) 的 树 所 组 成 的 森林 。 每 棵 树 都 表示 输入 流 中 的 一 个 字符 ， 每 个 结 点 中 的 
freq 变量 的 值 都 表示 了 它 在 输入 流 中 的 出 现 频率 。 在 我 们 的 例子 中 ， 输 入 含有 8 个 t， 5 个 e，11 个 空 


格 等 ( 特别 提示 : 为 了 得 到 这 些 频 率 ， 需 要 读 取 整 个 输入 流 一 一 霍 夫 曼 编码 是 一 个 两 轮 算 法 ， 因 为 需要 
再 次 读 取 输 入 流 才 能 压缩 它 ) 。 接 下 来 自 底 向 上 根据 频率 构造 这 棵 编码 的 单词 查找 树 。 在 构造 时 将 它 看 
作 一 棵 结 点 中 含有 频率 信息 的 二 又 树 ;在 构造 后 ， 我 们 才 将 它 看 作 一 棵 用 于 编码 的 单词 查找 树 。 构 造 过 
程 如 下 : 首先 找到 两 个 频率 最 小 的 结 点 ， 然 后 创建 一 个 以 二 者 为 子 结 点 的 新 结 点 〈 新 结 点 的 频率 值 为 它 
的 两 个 子 结 点 的 频率 值 之 和 ) 。 这 个 操作 会 将 森林 中 树 的 数量 减 一 。 然 后 不 断 重 复 这 个 过 程 ， 找 到 和 森林 
中 的 两 棵 频率 最 小 的 树 并 用 相同 的 方式 创建 一 个 新 的 结 点 。 用 优先 队列 能 够 轻易 实现 这 个 过 程 ， 如 右 下 
框 注 的 buildTrie 方 法 所 示 。 (为 了 说 明 这 个 过 程 ， 图 5.5.12 中 的 所 有 单词 查找 树 是 有 序 的 。 ) 随 着 
这 个 过 程 的 继续 ， 我 们 构造 的 单词 查找 树 将 越 来 越 大 ， 而 森林 中 的 树 会 越 来 越 少 〈 每 一 步 都 会 删除 两 棵 
树 ， 添 加 一 棵 新 树 ) 。 最 终 ， 所 有 的 结 点 会 被 合并 为 一 棵 单独 的 单词 查找 树 。 这 棵 树 中 的 叶子 结 点 为 所 
有 待 编码 的 字符 和 它们 在 输入 中 出 现 的 频率 ， 每 个 非 叶 子 结 点 中 的 频率 值 为 它 的 两 个 子 结 点 之 和 。 频 率 
较 低 的 结 点 会 被 安排 


在 树 的 底层 ， 而 高 频 
率 的 结 点 则 会 被 安排 private static Node buildTrie(int[] freq) 
EPSYA EA 


在 根 结 点 附近 的 地 方 。 // 使 用 多 哥 单 结 点 树 初始 化 优先 队列 
二 王 “ 六 e 全程 MinPQ<Node> pq = new MinPQ<Node>() ; 
根 结 点 的 频率 值 等 于 for (char c = 0; c < Ri c++) 
输入 中 的 字符 数量 。 if (freq[c] > 0) 
因为 这 是 一 棵 二 又 树 pq.insert(new Node(c, freq[c], null, null)); 
EV 1 while (pq.size() > 1) 
NR { // 合并 两 禄 频率 最 小 的 桂 
结 点 中 ， 所 以 就 定义 Node x = pq.delMin0); 
六 此 空竹 的 前 级 三 Node y = pq.delMin0) ; 
了 这 些 字 符 的 前 绥 码 。 Node parent = new Node('\0', x.freq + y.freq, x, y); 
使 用 buildCodeO 〇 方 pq.insert(parent); 
法 为 这 个 示例 构造 的 ) 


return pq.delMinQO; 


编译 表 ( 如 图 5.5.13 } 


的 右 侧 所 示 ) ， 得 到 
了 以 下 输出 : 构造 一 棵 霍 夫 曼 编 码 单词 查找 树 


10111110100101101110001111110010000110101100- 
01001110100111100001111101111010000100011011- 
11101001011011100011111100100001001000111010- 
01001110100111100001111101111010000100101010 . 


准 的 8 位 ASCI 编码 得 到 的 51 个 字符 的 408 位 编码 节省 了 


示 
57% ( 没有 计算 构造 编码 的 开销 ， 下 面 马 上 讨论 ) 。 另 外 ， 因 为 它 是 一 个 堆 夫 


这 个 比特 字符 串 长 176 位 ， 相 比 用 书 


编码 ， 所 以 不 存在 


受 


编码 的 前 级 码 了 。 


其 他 能 够 用 更 少 的 比特 将 输 


部 


一 一 接 左 栏 底 


构造 一 棵 霍 夫 曼 编码 单词 查找 树 


图 5.5.12 
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_ 编译 表 
字典 查找 树 的 表示 键 值 
LF 101010 
SP 01 
a 11011 
b 101011 
e 000 
rr 到 11000 
h 11001 
0 入 -名 > 
i 1011 
aa 2 ee m 11010 
3 ) S S 0 0011 
w 在 输入 中 a 
出 现 了 3 次 1 (1 (5) 久 从 根 结 点 到 这 里 ， + ia 
路 径 上 的 标签 依次 w oo010 
为 11010， 因 此 11010 
就 是 m 的 编码 


5.5.6.8 ”最 优 性 


图 5.5.13 ”字符 串 “it was the best of times it was the worst of times LEF” 的 霍 夫 曼 编码 


我 们 已 经 看 到 ， 在 树 中 高 频率 的 字符 比 低 频率 的 字符 离 根 结 点 更 近 ， 因 此 编码 所 需 的 比特 更 
少 ， 所 以 这 种 编码 的 方式 更 好 。 但 为 什么 这 是 一 种 最 优 的 前 级 码 呢 ”要 回答 这 个 问题 ， 


上 昭 


义 树 的 加 权 外 部 路 径 长 度 这 个 概念 ， 它 是 所 有 叶子 结 点 的 权 各 
之 积 的 和 。 


首先 要 定 


(频率 ) 和 深度 (请 见 1.5.2.5 节 ) |829 


命题 T。 对 于 任意 前 缀 码 ， 编 码 后 的 比特 字符 串 的 长 度 等 于 相应 单词 查找 树 的 加 权 外 部 路 径 
侨民 
证 明 。 每 个 叶子 结 点 的 深度 就 是 将 该 叶子 结 点 的 字符 编码 所 需 的 比特 数 。 因 此 ， 加 权 外 部 路 


径 长 度 就 是 编码 后 的 比特 字符 串 的 长 度 : 它 等 于 所 有 字符 的 出 现 次 数 和 字符 的 编码 长 度 之 积 


的 和 。 


在 示例 中 ， 有 一 个 叶子 结 点 的 距离 为 2( SP， 出现 频率 为 11 ) ， 三 个 距离 为 3 (e、 
频率 为 19 ) ， 三 个 距离 为 4 (w、o 和 i 站， 总 频率 为 10 ) ， 五 个 距离 为 5 (r、f、h、m 和 a， 总 频率 


s 和 tt， 总 


人 两 个 距离 为 6 (LF 和 bb， 总 频率 为 2 ) ， 因 此 综合 为 2 x 11+3 x 19+4 x 10+5 x 9+6 x 2=176。 


这 与 输出 的 比特 字符 串 的 长 度 预期 相等 。 


命题 U。 给 定 一 个 含有 7 个 符号 的 集合 和 它们 的 频率 ， 霍 夫 曼 算法 所 构造 的 前 缀 码 是 最 优 的 。 


证 明 。 数 学 归纳 法 。 假 设置 夫 曼 编码 对 于 任意 规模 小 于 了 的 符号 集合 都 是 最 优 的 。 


出 Ty*， 其 中 s* 表示 深度 为 d 的 菜 个 叶子 结 点 中 的 新 符号 。 可 以 注意 到 : 
WE WO d(f +f))+(d+1) FHf =W TH) + fit)) 


设 Ty 是 用 


霍 夫 曼 算 法 计算 并 编码 符号 集 和 相应 的 频率 (s1, 有 i),…,(s,,f)) 所 得 到 的 输出 ， 并 用 WCTi) 表示 输 


出 的 总 长 度 (单词 查找 树 的 加 权 外 部 路 径 长 度 ) 。 假 设 (sfi) 和 (sj, 了) 是 最 先 被 选中 的 两 个 符 
号 ， 那 么 算法 接 下 来 将 计算 (sf) 和 (sj, 有 被 (s*,fiy) 营 代 后 的 r-l 个 符号 的 集合 的 编码 以 输 
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833 


834 


现在 ， 假 设 (s1,f1),…,(s,, 了 ) 有 一 棵 最 优 的 高 度 为 刀 


的 单词 查找 树 J 0 (a) 和 (s»f)) 的 


深度 必然 都 是 有 (否则 将 它们 和 深度 为 有 的 结 点 交换 就 可 以 得 到 一 棵 加 权 外 部 路 径 长 度 更 小 的 
单词 查找 树 ) 。 另 外 ， 通 过 将 (sj, f)) 和 (sf i) 的 兄弟 结 点 交换 可 以 假设 (ssf 0) 和 (sj,f)) 是 兄 


弟 结 点 。 现 在 ， 考 虑 将 它们 的 父 结 点 蔡 换 为 (s*,fi) 
得 到 ) WTD)=W(T*)H+G A )o 
根据 归纳 法 ，Ti* 是 最 优 的 ， 即 WT*) < WCT*)。 


) 所 得 到 的 树 Tx。 注意 (用 同样 的 方法 可 以 


因此 有 : 


WAC SAG (OB) es ACI me pA) 
因为 了 是 最 优 的 ， 等 号 必然 成 立 ， 因 此 Tw 也 是 最 优 的 。 


每 当 一 个 结 点 被 选中 时 ， 也 可 能 有 若干 个 结 点 


和 它 的 权重 相同 。 霍 夫 曼 算法 并 没有 说 明 如 


何 区 别 它 们 ,也 没有 说 明 应 该 如 何 确定 子 结 点 的 左右 位 置 .不 同 的 选择 会 得 到 不 同 的 霍 夫 曼 编码 ， 
但 用 它们 将 信息 编码 所 得 到 的 比特 字符 串 在 所 有 前 绥 码 中 都 是 最 优 的 。 


5.5.6.9 ” 写 入 和 读 取 单词 查找 树 


我 们 已 经 强调 过 ， 前 面 讨论 过 的 空间 节约 并 不 准确 ， 因 为 没有 单词 查找 树 ， 被 压缩 的 比特 流 是 无 


法 被 解码 的 。 所 以 ,我 们 必须 将 输出 比特 字符 串 中 的 单词 查找 树 的 成 本 考虑 进来 。 对 于 较 长 的 输入 ， 


这 个 成 本 相对 较 小 。 但 为 了 保证 数据 压缩 流程 的 完整 ， 


必须 在 压缩 时 将 树 写 入 比特 流 并 在 展开 时 读 取 


它 。 怎 样 才 能 将 一 棵 单词 查找 树 编码 为 比特 流 并 展开 它 呢 ? 其 实 ， 只 要 基于 单词 查找 树 的 前 序 遍历 ， 


这 两 个 任务 都 只 需要 很 简单 的 递归 即 可 完成 。 下 面 框 注 中 的 writeTrieQ 方法 会 按照 前 序 遍 历 单词 
查找 树 : 当 它 访 问 的 是 一 个 内 部 结 点 时 ， 它 会 写 入 一 个 比特 0; 当 它 访问 的 是 一 个 叶子 结 点 时 ， 它 会 


写 人 一 个 比特 1， 紧 接 着 是 该 叶子 结 点 中 字符 的 8 位 A 
曼 树 的 比特 字符 串 编 码 如 图 5.5.14 所 示 。 第 一 位 是 0， 


SCII 编 码 。A BRACADA SB RA 的 霍 夫 
对 应 着 根 结 点 ; 下 一 个 遇 到 是 含有 A 的 叶子 结 


点 ， 因 此 下 一 位 为 1， 紧 接着 是 01000001， 即 “A” 的 8 位 ASCII 编码 。 下 两 位 均 为 0， 因 为 遇 到 的 


都 是 两 个 内 部 结 点 , 等 等 。 相 应 的 readTrie() 如 框 注 所 示 。 它 从 比特 字符 囊 中 重新 构造 了 单词 查找 树 : 


首先 读 取 一 个 比特 以 得 到 当前 结 点 的 类 型 ， 如 果 是 叶子 结 点 ( 比特 为 1 ) 那么 就 读 取 字符 的 编码 并 创 
建 一 个 叶子 结 点 ; 如 果 是 内 部 结 点 ( 比特 为 0) 那么 就 创建 一 个 内 部 结 点 并 ( 递归 地 ) 继续 构造 它 的 


左右 子 树 。 请 一 定 要 理解 这 些 方法 : 它们 的 简洁 性 有 时 


private static void 

writeTrie(Node x) 

{ // 输出 单词 查找 树 的 比特 字符 串 
if (x.isLeaf()) 


[是 有 欺骗 性 的 。 


BinaryStdOut .writeCtrue) ; 
BinaryStdOut .write(Cx.ch) ; 
return; 
} . 叶子 结 点 
BinaryStdOut.write(false); | A D LF > 5 R B 
writeTlrie(x. left); 人 0 1000010101010000110101010010101000010 
writeTrie(x.right); 上 2 ! 1 内 部 结 点 
将 单词 查找 树 写 为 比特 字符 串 图 5.5.14 


使 用 前 序 遍 历 将 一 棵 单词 查找 树 编 码 为 比特 流 
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private static Node readTrie() 
{ 
if (BinaryStdIn.readBoolean()) 
return new Node(BinaryStdIn.readChar(), 0, null, null); 
return new Node('\0', 0, readTrie(), readTrieQO); 
} 


从 比特 流 的 前 序 表 示 中 重建 单词 查找 树 


5.5.6.10” 霍 夫 曼 压缩 的 实现 
算法 5.10 加 上 之 前 讨论 过 的 buildCode()、buildTrie()、readTrie() 和 writeTrie() (以 
及 一 开始 展示 的 expand() 方法 ) ， 就 是 霍 夫 曼 压缩 算法 的 完整 实现 。 为 了 展开 前 文 对 算法 的 概述 ， 
我 们 将 需要 压缩 的 比特 流 看 作 8 位 编码 的 Char 值 流 并 将 它 按 照 如 下 方法 压缩 : 
口 读 取 输入 ; 
口 将 输入 中 的 每 个 char 值 的 出 现 频率 制 成 表格 ; 
口 根据 频率 构造 相应 的 霍 夫 曼 编码 树 ; 
口 构造 编译 表 ， 将 输入 中 的 每 个 char 值 和 一 个 比特 字符 串 相 关联 ; 
口 将 单词 查找 树 编码 为 比特 字符 串 并 写 入 输出 流 ; 
口 将 单词 总 数 编码 为 比特 字符 串 并 写 入 输出 流 ; 
口 使 用 编译 表 翻 译 每 个 输入 字符 。 
要 展开 一 条 编码 过 的 比特 流 ， 步 又 如 下 : 
口 读 取 单词 查找 树 ( 编码 在 比特 流 的 开头 ) ; 
口 读 取 需 要 解码 的 字符 数量 ; 
口 使 用 单词 查找 树 将 比特 流 解 码 。 
霍 夫 曼 压 缩 算法 含有 4 个 递归 方法 处 理 单词 查找 树 ， 整 个 压缩 过 程 需要 7 步 ， 是 我 们 学 习 的 较 
为 复杂 的 算法 之 一 ， 请 见 图 5.5.15。 但 因为 效率 高 ， 它 也 是 应 用 最 广泛 的 算法 之 一 。 835 


4. 


算法 5.10” 霍 夫 曼 压 缩 


public class Huffman 

{ 
private static int R = 256; // ASCII 字 母 表 
// Node 内 部 类 请 见 5.5.6.4 节 框 注 “ 单 词 查找 树 的 结 点 表示 ” 
// 其 他 辅助 方法 和 eXpand() 方 法 请 见 正文 


public static void compress() 
{ 
// 读 取 输入 
String s = BinaryStdIn.readString() ; 
char[] input = s.toCharArray() ; 
// 统计 频率 
int[] freq = new int[R]; 
for (int 1 = 0; i < input.length; i++) 
freq[input[i]]++; 
// 构造 霍 夫 曼 编码 树 
Node root = buildTrie(freq); 
// (递归 地 ) 构造 编译 表 
String[] st = new String[R]; 


836 


cm 


buildCode(st, root, ""); 


// (递归 地 ) 打印 解码 用 的 单词 查找 树 
writeTrie(root); 


// 打印 字符 总 数 
BinaryStdOut.write(input. length); 


// 使 用 霍 夫 曼 编码 处 理 输入 
for (int i = 0; i < input.length; i++) 
{ 
String code = st[input[i]]; 
for (int j = 0; j < code.length(O); j++) 
if (code.charAt(j) == "1") 
BinaryStdOut.write(true); 
else BinaryStdOut.write(false); 
} 
BinaryStdOut.closeQO; 


这 上段 霍 夫 曼 编 码 算法 的 实现 构造 了 一 棵 清晰 的 编码 单词 查找 树 并 使 用 了 前 文 所 述 的 各 种 


有 助 方法 。 


测试 用 例 (96 位 ) 
% more abra.txt 
ABRACADABRA! 


% java Huffman - < abra.txt | java BinaryDump 60 

010100000100101000100010000101010100001101010100101010000100 
000000000000000000000000000110001111100101101000111110010100 
120 bits < 一 压缩 率 120/96=125%， 原 因 是 字典 查找 树 需要 59 位 ， 字 符 总 数 需 要 32 位 


正文 中 的 例子 (408 位 ) 
% more tinytinyTale.txt 
it was the best of times it was the worst of times 


% java Huffman - < tinytinyTale.txt | java BinaryDump 64 
0001011001010101110111101101111100100000001011100110010111001001 
0000101010110001010110100100010110011010110100001011011011011000 
0110111010000000000000000000000000000110011101111101001011011100 
0111111001000011010110001001110100111100001111101111010000100011 
0111110100101101110001111110010000100100011101001001110100111100 
00111110111101000010010101000000 

352 bits 一 压缩 率 352/408=86%， 尽 管 字典 查找 树 占用 了 137 位 ， 字 符 总 数 占用 了 32 位 


% java Huffman - < tinytinyTale.txt | java Huffman + 
it was the best of times it was the worst of times 


《双城记 》 的 第 一 章 
we Java PE edi De 90 < nelales txt 


图 5.5.15 使 用 霍 夫 曼 编码 压缩 和 展开 字 市 流 
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45056 bits 


% java 
Me 


站 


C2 


Sar 


23912 bits -一 压缩 率 23912/45056=53% 


《双城记 》 全 文 
% java BinaryDump 0 < tale.txt 
5812552 位 


% java Huffman - < tale.txt > tale.txt.huf 
% java BinaryDump 0 < tale.txt.huf 
3043928 bits < 一 压缩 率 3043928/5812552=52% 


图 5.5.15 使 用 霍 夫 曼 编码 压缩 和 展开 字 节 流 ( 续 837 


霍 夫 曼 奈 缩 算法 流行 的 一 个 原因 是 ， 不 仅 对 于 自然 语言 文本 ， 它 对 各 种 类 型 的 文件 都 有 效果 。 
我 们 在 编写 方法 的 代码 时 十 分 小 心 ， 以 保证 它 能 够 正确 处 理 8 位 字符 可 能 表示 的 任意 8 位 值 。 换 名 
话说 , 我 们 可 以 将 它 应 用 于 任何 字 节 流 。 对 于 我 们 在 本 节 中 讨论 过 的 其 他 几 种 类 型 的 文件 , 图 5.5.16 
显示 了 这 些 例子 , 说 明了 霍 夫 曼 压缩 与 定 长 编码 以 及 游程 编码 相 比 仍然 十 分 具有 苋 争 力 ， 尽 管 这 些 
算法 是 为 某 些 类 型 的 文件 专门 设计 的 。 理 解 霍 夫 曼 编码 在 这 些 领 域 的 优越 性 能 是 十 分 有 帮助 的 。 对 
于 基因 组 数据 ， 霍 夫 曼 压 缩 实际 上 发 现 了 双 位 编码 。 因 为 4 种 字符 的 出 现 频率 基本 相同 ， 因 此 霍 夫 
曼 编码 树 是 平衡 的 ， 每 个 字符 分 配 到 的 都 是 一 个 两 位 的 编码 。 在 游程 编码 的 示例 中 ，00000000 
和 11111111 都 可 能 是 出 现 最 频繁 的 字符 ， 因 此 它们 的 编码 可 能 只 有 2 ~ 3 位 ， 这 样 就 能 够 大 幅 
度 地 压缩 输入 数据 。 


病毒 (50 000 位 ) 


% java Genome - < genomeVirus.txt | java PictureDump 512 25 


225860 bts 


% java Huffman - < genomeVirus.txt | java PictureDump 512 25 


2 : 
Mh Rs ad 3 1 全 ERA 人 < i 办 
12576 bits 一 霍 夫 曼 编码 只 比 自 定义 的 双 位 编码 多 使 用 了 40 个 比特 
位 图 (1536 位 ) 

% java RunLength - < q32x48.bin | java BinaryDump 0 
1144 bits 

% java Huffman  - < q32x48.bin | java BinaryDump 0 


816 bits < 霍 夫 曼 压缩 算法 比 自 定义 算法 使 用 的 比特 数 少 29% 


更 高 分 辩 率 的 位 图 (6144 位 ) 
% java RunLength - < q64x96.bin | java BinaryDump 0 
22960 ts 


% java Huffman  - < q64x96.bin | java BinaryDump 0 
2032 bits -< 一 对 于 更 高 的 分 辩 率 ， 差 距 缩 小 到 11% 


图 5.5.16 ”用 替 夫 曼 编 码 压 缩 和 展开 基因 组 和 位 图 数据 838 
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839 


除了 霍 夫 曼 压缩 算法 ， 男 一 种 值得 一 提 的 选择 是 20 世纪 70 年 代 末 至 80 年 代 初 由 A.Lempel、 
J.Ziv 和 工 Welch 发 明 的 一 种 算法 。 它 的 应 用 也 非常 广泛 ， 因 为 它 的 实现 简单 ， 而 且 也 适用 于 多 种 类 
型 的 文件 。 

这 种 算法 的 基本 思想 和 霍 夫 曼 编码 的 基本 思想 相反 。 堆 夫 曼 算法 是 为 输入 中 的 定 长 模式 产生 一 
张 变 长 的 编码 编译 表 ， 但 这 种 方法 是 为 输入 中 的 变 长 模式 生成 一 张 定 长 的 编码 编译 表 。 这 种 方法 的 
男 一 种 令 人 惊讶 的 特性 在 于 ， 和 霍 夫 曼 编码 不 同 ， 输 出 中 不 需要 附 上 这 张 编译 表 。 
5.5.6.11 LZW 压缩 算法 

为 了 说 明 这 种 算法 的 基本 思想 ， 先 来 看 一 个 数据 压缩 的 示例 。 假 设 需 要 读 取 一 列 由 7 位 ASCII 
编码 的 字符 组 成 的 输入 流 并 将 它们 写 为 一 条 8 位 字 节 的 输出 流 。 (在 实际 应 用 中 使 用 的 参数 值 一 般 
都 会 更 大 一 一 实现 中 使 用 的 是 8 位 的 输入 和 12 位 的 输出 。 ) 我 们 将 输入 字 节 称 为 字符 ， 输 入 的 字 
节 序 列 称 为 字符 串 ， 输 出 字 节 称 为 编码 ， 尽 管 这些 术 语 在 其 他 情况 下 的 意义 有 所 不 同 。LZW 压缩 
算法 的 基础 是 维护 一 张 字符 串 键 和 ( 定 长 ) 编码 的 编译 表 。 在 符号 表 中 将 128 个 单字 符 键 的 值 初始 
化 为 8 位 编码 ， 即 在 每 个 字符 的 7 位 值 前 添加 一 个 0。 为 了 简单 明了 ， 用 十 六 进 制 数字 来 表示 编码 
的 值 ， 这 样 ASCII 的 A 的 编码 即 为 41，R 的 编码 为 52， 等 等 。 我 们 将 80 保留 为 文件 结束 的 标志 并 
将 其 余 的 编码 值 (81 ~ FF ) 分 配给 在 输入 中 遇 到 的 各 种 子 字符 串 ， 即 从 81 开始 不 断 为 新 键 赋予 更 
大 的 编码 值 。 为 了 压缩 数据 ， 只 要 输入 还 未 结束 ， 就 会 不 断 进行 以 下 操作 : 
口 找 出 未 处 理 的 输入 在 符号 表 中 最 长 的 前 级 字符 串 s; 
口 输出 s 的 8 位 值 (编码 ) ; 
口 继续 扫描 s 之 后 的 一 个 字符 c; 
口 在 符号 表 中 将 s+c (连接 s 和 c) 的 值 设 为 下 一 个 编码 值 。 

在 后 面 的 几 步 中 ， 我 们 需要 继续 查看 输入 中 的 下 一 个 字符 才能 构造 字典 中 的 下 一 个 条 目 ， 因 
此 将 这 个 字符 c 称 为 前 瞻 (lookahead ) 字符 。 现 在 ， 当 用 尽 了 编码 值 (将 FF 赋予 了 某 个 字符 串 ) 
之 后 暂时 只 能 停止 向 符号 表 中 添加 新 的 条 目 一 一 我 们 会 在 稍 后 讨论 其 他 策略 。 
5.5.6.12 ”LZW 压缩 举例 

下 表 所 示 的 是 LZW 算法 压缩 样 例 输入 A BRA CADABRAB RA BR 人 A 的 详细 过 程 。 
对 于 前 7 个 字符 ， 匹 配 的 最 长 前 级 仅 为 1 个 字符 ， 因 此 输出 这 些 字符 所 对 应 的 编码 ， 并 将 编码 81 
到 87 和 产生 的 7 个 两 个 字符 的 字符 串 相 关联 。 然 后 我 们 发 现 AB 匹配 了 输入 的 前 级 ( 于 是 输出 81 
并 将 ABR 添加 到 符号 表 中 ) ， 然 后 是 RA ( 输出 83 并 添加 RAB ) ，BR (输出 82 并 添加 BRA ) 和 ABR 
(输出 88 并 添加 ABRA ) ， 最 后 只 剩 下 A (输出 41， 请 见 图 5.5.17 ) 。 


输入 A B R A C A D A B R A B R A B R A 
匹配 | 
输出 41 42 52 41 43 41 44 81 83 82 88 41 80 


AB 81 AB 81 
BR 82 BR 82 


输入 的 | RA 83 RA 83 
子 字 符 串 LZW CA85 CA 85 
编码 f Ap86 AD 86 


RAB 89 RAB 89 
BR A 8A BRA 8A 
ABR A 8B ABRA 8B 


图 5.5.17 LZW 算法 压缩 A BRACADABRABRABRA 


输入 为 17 个 7 位 的 ASCI 字符 ， 总 共 119 位 ; 输出 为 13 个 8 位 的 编码 ， 总 共 104 位 


比 为 87%， 即 使 这 只 是 个 很 小 的 例子 。 
5.5.6.13 ”LZW 的 单词 查找 树 
LZW 压缩 算法 含有 两 种 符号 表 操作 : 
口 找到 输入 和 符号 表 的 所 有 键 的 最 长 前 级 匹配 ; 


5.2 节 中 介绍 的 单词 查找 树 数 据 结构 完全 是 为 这 些 
操作 量 身 定做 的 。 对 于 上 一 个 示例 ， 它 的 单词 查找 树 表 
示 如 图 5.5.18 所 示 。 要 查找 最 长 前 缀 匹配 ， 从 根 结 点 开 
始 遍历 树 ， 按 照 结 点 的 标签 和 输入 字符 匹配 ; 在 添加 一 
个 新 编码 时 ， 先 创建 一 个 用 新 编码 和 前 瞻 字 符 标记 的 结 
点 并 将 它 和 查找 结束 的 结 点 相关 联 。 在 实践 中 ， 为 了 节 
省 空间 我 们 使 用 的 是 5.2 节 中 介绍 的 三 向 单词 查找 树 。 
值得 一 提 的 是 这 里 对 单词 查找 树 的 使 用 与 霍 夫 曼 编码 
的 不 同 : 对 于 霍 夫 曼 编码 ， 使 用 单词 查找 树 是 因为 任意 
编码 都 不 会 是 其 他 编码 的 前 级 ; 但 对 于 LZW 算法 ,使 
用 单词 查找 树 是 因为 每 个 由 输入 字符 串 得 到 的 键 的 前 
绥 也 都 是 符号 表 中 的 一 个 键 。 
5.5.6.14 LZW 压缩 的 展开 


口 将 匹配 的 键 和 前 脆 字 符 相 连 得 到 一 个 新 键 ， 将 新 键 和 下 
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压缩 


个 编码 关联 并 添加 到 符号 表 中 。 


图 5.5.18 LZW 算法 的 编译 表 的 单词 查找 


树 表 示 


如 示例 所 示 ，LZW 压缩 的 展开 所 需 的 输入 是 一 系列 8 位 编码 ， 而 输出 则 是 一 个 7 位 ASCI 字 
符 组 成 的 字符 串 。 在 展开 时 ， 我 们 会 维护 一 张 关联 字符 串 和 编码 值 的 符号 表 〈 这 张 表 的 逆 表 是 压缩 
时 所 用 的 符号 表 ) 。 在 这 张 表 中 加 入 00 到 7F 和 所 有 单个 ASCII 字符 的 字符 串 的 关联 条 目 ， 将 第 一 
个 未 关联 的 编码 值 设 为 81 ( 80 保留 为 文件 结尾 的 标记 ) ， 将 保存 了 当前 字符 串 的 变量 val 设 为 含 


有 第 一 个 字符 的 字符 串 ， 在 遇 到 编码 80 ( 文件 结束 ) 之 前 不 断 进行 以 下 操作 : 


口 输出 当前 字符 串 val; 
口 从 输入 中 读 取 一 个 编码 x; 
口 在 符号 表 中 将 s 设 为 和 x 相关 联 的 值 ; 


口 将 当前 字符 串 val 设 为 s。 


口 在 符号 表 中 将 下 一 个 未 分 配 的 编码 值 设 为 val+c， 其 中 c 为 s 的 首 字母 ; 


这 个 过 程 比 压缩 更 加 复杂 ， 原 因 来 自 于 前 瞻 字 符 : 需要 读 取 下 一 个 编码 来 得 到 和 它 相 关联 的 字 


符 串 的 首 字母 , 这 使 得 整个 过 程 不 同步 。 对 于 前 7 个 编码 , 只 需要 在 符号 表 中 查找 并 输出 相应 的 字符 ， 


然后 多 读 取 一 个 字符 并 在 符号 表 中 添加 一 个 两 个 字符 的 


字符 上 


的 条 目 。 这 和 之 前 是 相同 的 。 然 后 读 


到 81 (输出 AB 并 向 符号 表 中 添加 ABR ) ， 然 后 是 83( 输出 RA 并 添加 RAB ) ，82 (输出 BR 并 添加 


BRA ) ,88 (输出 ABR 并 添加 ABRA ) ， 然 后 只 剩 下 41。 最 


索引 为 编码 。 


级 公认 


终 会 遇 到 文件 结束 的 标记 80 ( 因此 输出 A) 。 
这 个 过 程 结 束 后 ， 就 已 经 如 期 写 出 了 原始 的 输入 ， 并 且 构 造 了 一 张 和 压 缩 时 相同 的 符号 表 ( 只 是 键 
和 值 的 位 置 对 调 了 , 请 见 图 5.5.19 ) 。 注 意 , 我 们 也 可 以 使 用 一 个 简单 的 字符 串 数组 来 表示 符号 表 ， 
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输入 41 42 52 41 43 41 44 81 83 82 88 41 80 
输出 A B R A A D AB RA BR ABR A 
键 值 
81 AB 81 AB 
82 BR 82 BR 
83 RA 83 RA 
84AC 84 AC 
85 CA 85 CA 
86 AD 86 AD 
87 DA 87 DA 
88 AB R 88 ABR 
LW/7 1 89RAB 89 RAB 
编码 ”输入 的 8A BR A 8A BRA 
a 8B ABR A 8B ABR A 
子 字符 串 
841 图 5.5.19 LZW 算法 对 41 42 52 41 43 41 44 81 83 82 88 41 80 的 展开 
算法 5.11 LZW 算法 的 压缩 
public class LZW 
{ 
private static final int R = 256; // 输入 字符 数 
private static final int L = 4096; // 编码 总 数 =2A12 
private static final int W = 12; // 编码 宽度 
public static void compressQ) 
String input = BinaryStdIn.readString() ; 
TST<Integer> st = new TST<Integer>() ; 
for Cint i = 0; i < Ri i++) 
st.put("" + (char) 1, 1); 
int code = R+1l; // R 为 文件 结束 (EOF) 的 编码 
while (input.length() > 0) 
{ 
String s = st.longestPrefix0f(input); // 找到 匹配 的 最 长 前 组 
BinaryStdOut .write(Cst.get(s) ，W) ; // 打印 出 S 的 编码 
int t = s.lengthO; 
if (t < input.length() && code < L)  // 将 s 加 入 符号 表 
st.put(input.substring(0, 七 + 1), code++); 
input = input.substring(t); // 从 输入 中 读 取 s 
3 
BinaryStdOut.write(R, W); // 写 入 文件 结束 标记 
BinaryStdOut.close() ; 
} 
public static void expand() 
// 请 见 算 法 5.11 ( 续 ) 
} 


Lempel-Ziv-Welch 数据 压缩 算法 的 这 份 实现 的 输入 为 8 位 的 字 节 流 ， 输 出 为 12 位 编码 ， 适 用 于 人 
E 文 吕 


大 小 的 文件 。 对 于 较 小 的 样 例 输入 , 它 所 产生 的 编码 和 在 了 
其 他 编码 从 100 开始 。 


P 所 讨论 的 类 似 : 单字 符 的 编码 的 开头 为 0 


吕 


Wk 


9 


5.5 ”数据 压缩 二 553 


% more abraLZW.txt 
ABRACADABRABRABRA 


% java LZW - < abraLZw.txt | java HexDump 20 
04 10 42 05 20 41 04 30 41 04 41 01 10 31 02 10 80 41 10 00 
Ll60Rbies 
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5.5.6.15 ”特殊 情况 

在 刚才 描述 的 过 程 中 ， 存 在 这 一 个 小 小 的 问题 。 常 常 只 有 基于 以 上 描述 实现 了 这 个 过 程 的 同学 
( 以 及 有 经 验 的 程序 员 ! ) 才能 发 现 它 。 这 个 问题 就 是 前 瞻 过 程 所 得 到 的 字符 可 能 和 当前 子 字符 串 
的 开头 字符 相同 ， 如 图 5.5.20 所 示 。 在 这 个 例子 中 ， 输 入 字符 串 : 
ABABABA 
如 图 5.5.20 上 方 所 示 ， 被 压缩 得 到 的 输出 编码 为 : 

41 42 81 83 80 

在 展开 时 ， 首 先 会 得 到 编码 41 并 输出 A， 然 


后 读 取 42 得 到 前 量 字 符 并 将 AB 和 81 捅 符号 表 。。 革 A 8 A 8 A 8 A 
输出 42 所 对 应 的 B， 读 取 81 得 到 前 瞻 字 符 并 将 es ， , 
BA 和 82 搬入 符号 表 ; 输出 81 所 对 应 的 AB。 到 re 

目前 为 止 事情 进展 得 不 错 。 但 当 我 们 接 下 来 取得 AB 81 蛋 入 

了 编码 83 并 希望 得 到 前 瞻 字 符 时 ， 就 被 卡 住 了 ， Re 

因为 读 取 编 码 所 要 补 全 的 符号 表 条 目 正 是 83 ! 幸 下 

运 的 是 ,检查 ( 只 有 在 读 取 的 编码 和 需要 完成 的 a 本 

编码 条 目 相 同时 才 会 出 现 ) 并 修正 (此 时 ， 前 瞻 给 HA  B AB ? ~— AA 
字符 必然 是 当前 字符 串 的 首 字母 ， 因 为 它 就 是 下 2 

个 将 被 输出 的 字符 ) 这 种 情况 并 不 困难 。 在 这 个 - 0 
例子 中 ， 前 脆 字 符 必 然 是 A ( ABA 的 首 字母 ) 。 下 个 输出 字符 一 一 即 前 瞻 字 符 

此 ， 下 一 个 被 输出 的 字符 串 和 符号 表 中 83 的 值 都 a 
是 ABA。 


5.5.6.16 ”实现 

经 过 这 些 描述 之 后 ， 实 现 LZW 编码 就 很 简单 了 ， 如 算法 5.11 所 示 ( expand0 方法 的 实现 请 
见 算法 5.11 ( 续 ) ) 。 这 上 段 实现 接受 8 位 字 节 流 作 为 输入 〈 因 此 能 压缩 任意 文件 ， 而 不 仅仅 是 字符 
串 ) ， 并 产生 12 位 编码 的 输出 流 〈 因此 字典 会 非常 大 ， 压 缩 率 也 会 更 好 ) 。 这 些 值 指定 在 (final 
修饰 的 ) 实例 变量 R、L 和 W 中 。 在 compress 0) 方法 中 使 用 了 一 棵 三 向 单词 查找 树 (请 见 5.2 节 ) [843 
来 表示 编译 表 ( 利用 单词 查找 树 来 支持 高 效 的 1ongestPrefix0fQ 操作 ) ， 在 expand 0) 方法 中 
使 用 了 一 个 字符 串 数组 来 表示 逆向 编译 表 。 这 样 ，compress() 和 expand(0) 方法 的 代码 就 不 完全 
与 正文 中 的 描述 一 一 对 应 了 。 这 些 方法 非常 高 效 。 对 于 某 些 文件 ， 我 们 还 可 以 通过 在 编译 表 满 时 将 
其 清空 并 重用 全 部 编码 来 改进 它们 。 这 些 改进 以 及 评估 它们 的 性 能 所 需 的 实验 都 留 作 本 节 最 后 的 
练习 。 


算法 5.11 ( 续 ) ”LZW 算法 的 展开 


public static void expand() 


{ 
String[] st = new String[L]; 
int ij; // 下 一 个 待 补 全 的 编码 值 
for (i = 0; i < R; i++) // 用 字符 初始 化 编译 表 
st[i] = "" + (char) 1; 
st[i++] = ""; // (未 使 用 ) 文件 结束 标记 (EOF) 的 前 瞻 字 符 
int codeword = BinaryStdIn.readInt(W); 
String val = st[codeword] ; 
while (true) 
{ 
BinaryStdOut .write(val); // 输出 当前 子 字符 串 
codeword = BinaryStdIn.readInt(CW) ; 
if (codeword == R) break; 
String s = st[codeword]; // 获取 下 一 个 编码 
if (i == codeword) // 如 果 前 瞻 字 符 不 可 用 
s = val + val.charAt(0); // 根据 上 一 个 字符 串 的 首 字母 得 到 编码 的 字符 串 
Th Ci ey) 
st[i++] = Val + S.charAt(0); // 为 编译 表 添加 新 的 条 目 
val = s; // 更 新 当前 编码 
} 
BinaryStdOut.closeQO); 
} 
这 上段 代码 实现 了 Lempel-Ziv-Welch 算法 的 展开 。 展 开 比 压 缩 更 加 复杂 ， 因 为 需要 从 下 一 个 编码 中 获 


脆 字 符 可 能 不 可 用 


取 前 此 字符 ， 并 且 存在 前 


的 复杂 情况 (请 见 正文 )。 


% java LZW - < abralZW.txt | java LZW + 


ABRACADABRABRABRA 


% more ababLZW.txt 
ABABABA 


% java LZW - < ababLZW.txt | java LZW + 


ABABABA 


和 以 前 一 样 , 请 花 一 点 时 间 仔 细 研 究 程 序 和 图 
它 已 经 被 证 明 为 是 一 个 多 用 途 高 效率 的 压缩 算法 。 


5.5.21 给 出 的 LZW 算 法 压缩 的 实例 。 十 几 年 以 来 ， 


病毒 (50 000 位 ) 


% java Genome - < genomeVirus.txt | java PictureDump 512 25 
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12536 bits 


% 3 La < enne a txt | ava Pi lh D1 3 


18232 bits 下 一 效果 不 如 双 位 编码 ， 因为 重复 数据 很 少 
位 图 (6144 位 ) 


% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 bits 


% java LZW - < q64x96.bin | java BinaryDump 0 
2824 bits < 一 效果 不 如 游程 编码 ， 因 为 文件 太 小 


《 双 城 计 》 全 文 (5 812 552 位 ) 


% java BinaryDump 0 < tale.txt 
Si2552Dits 


% java Huffman - < tale.txt | java BinaryDump 0 
3043928 bits 


% java LZW - < tale.txt | java BinaryDump 0 
2667952 bits <- 压缩 率 2667952/5812552 = 46% (已 知 最 好 成 绩 ) 


图 5.5.21 采用 12 位 编码 的 LZW 算法 对 各 种 文件 的 压缩 和 展开 


答疑 

问 为 什么 需要 BinaryStdIn 和 BinaryStdOut ? 

答 ” 这 是 在 便利 性 和 效率 之 间作 出 的 一 个 平衡 。StdIn 每 次 能 够 处 理 8 位 数据 ， 而 BinaryStdIn 必须 处 
理 每 一 位 数据 。 大 多 数 应 用 程序 处 理 的 都 是 字 节 流 ， 但 数据 压缩 是 个 例外 。 

问 为 什么 需要 close0) 方法 ? 

答 有 这 个 要 求 的 是 因为 标准 输出 流 是 一 个 字 节 流 ， 因 此 BinaryStd0ut 需要 知道 何 时 将 最 后 一 个 字 节 
对 齐 并 输出 。 

问 ”能够 将 StdIn 和 BinaryStdIn 混用 吗 ? 

答 ” 最 好 不 要 这 样 。 因 为 它们 都 和 系统 以 及 具体 的 实现 有 关 ， 谁 也 不 知道 会 出 现 什 么 情况 。 我 们 的 实现 会 抛 
出 一 个 异常 。 但 从 另 一 方面 来 说 , 混用 Stdout 和 BinaryStd0ut 没 有 问题 (我 们 的 代码 就 这 么 使 用 的 ) 。 

问 为 什么 在 Huffman 类 中 Node 类 是 静态 的 ? 

答 ”我 们 将 所 有 数据 压缩 算法 都 组 织 成 了 静态 方法 的 集合 ， 而 没有 实现 任何 数据 结构 。 

问 ”我 能 保证 数据 压缩 算法 至 少 不 会 将 比特 流 变 长 吗 ? 

答 你 可 以 直接 把 输入 复制 到 输出 ， 但 仍然 需要 某 种 标记 来 说 明 不 需要 使 用 任何 标准 的 数据 压缩 方法 就 
可 以 使 用 它 。 某 些 商 业 数据 压缩 程序 有 时 会 作出 这 种 保证 ， 但 实际 上 这 种 保证 很 脆弱 并 且 远 远 不 具 
备 通用 性 。 事 实 上 ， 大 多 数 数 据 压 缩 算法 甚至 都 做 不 到 我 们 对 命题 $ 的 第 一 种 证 明 方法 的 第 二 步 : 
极 少 有 算法 能 够 进一步 压缩 其 自身 产生 的 比特 字符 串 。 
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556 BE 第 5 章 字 符 串 
图 练习 
5.5.1 请 看 下 表 所 示 的 4 种 变 长 编码 。 哪 些 编码 是 无 前 级 的 ?哪些 编码 的 解码 方式 是 唯一 的 ?对 于 解码 


方式 唯一 的 编码 ， 


请 给 出 1000000000000 的 解码 结 


847 


符号 编码 1 编码 2 编码 3 编码 4 
A 0 0 1 1 
B 100 1 01 01 
避 10 00 001 001 
D 11 11 0001 000 
5.5.2 给 出 一 个 非 前 级 码 但 解码 方式 又 是 唯一 的 编码 。 
答 : 任意 无 后 级 的 编码 都 是 解码 方式 唯一 的 编码 。 
5.5.3 ”给 出 一 个 即 非 前 级 码 又 非 后 级 人 码 且 解码 方式 唯一 的 编码 。 
答 : {0011, 011, 11, 1110} 或 {01, 10, 011, 110} 
5.5.4 {01, 1001, 1011, 111, 1110} 和 {01, 1001, 1011, 111, 1110} 的 解码 方式 是 唯一 的 吗 ? 如 果 不 是 ， 找 出 


条 可 以 用 两 种 方式 解码 的 字符 串 。 
使 用 RunLength 处 理 本 书 网 站 上 的 文件 q128x192.bin。 被 压缩 后 的 文件 含有 多 少 比 特 ? 
将 和 N 个 符号 a 编码 需要 多 少 比 特 (作为 N 的 函数 ) ?NN 个 序列 abc 呢 ? 


5.5.7 ”给 出 用 游程 编码 、 霍 夫 曼 编码 、LZW 编码 压缩 字符 串 a,aa,aaa,aaaa,... (含有 N 个 a 的 字符 串 ) 
的 结果 ， 以 的 函数 表示 压缩 比 。 
5.5.8 给 出 用 游程 编码 、 堆 夫 曼 编码 、LZW 编码 压缩 字符 串 ab,abab,ababab,abababab,... (将 ab 


重复 V 次 得 到 的 字符 串 ) 的 结果 ， 以 NN 的 函数 表示 压缩 比 。 
估计 游程 编码 、 霍 夫 曼 编码 和 LZW 编码 处 理 长 度 为 Y 的 随机 ASCII 字符 
均等 的 几率 出 现任 意 字符 ) 的 压缩 比 。 
按照 正文 中 的 示意 图 的 样式 显示 使 用 Huffman 处 理 字 符 串 it was the age of foolishness 
时 霍 夫 曼 编码 树 的 构造 过 程 。 压 缩 后 的 比特 流 需 要 多 少 比 特 ? 
如 果 所 有 字符 均 来 自 一 个 只 有 两 个 字符 的 字母 表 ， 该 字符 串 的 霍 夫 曼 编码 将 会 是 什么 ?给 出 这 样 
的 一 个 长 度 为 N 的 字符 串 ， 使 得 霍 夫 曼 编码 得 到 的 结果 最 长 。 
假设 所 有 符号 出 现 的 概率 均 为 2 的 负 若 干 次 方 ， 描 述 相应 的 霍 夫 曼 编 码 。 
假设 所 有 符号 出 现 的 概率 均 相 等 ， 描 述 相应 的 霍 夫 曼 编码 。 
假设 需要 编码 的 所 有 字符 的 出 现 频率 均 不 相同 。 此 时 的 霍 夫 曼 编 码 树 是 唯 
只 需 扩 展 霍 夫 曼 算法 即 可 有 效 地 将 双 位 字符 编码 (使 
什么 ? 
以 下 输入 经 过 LZW 编码 后 的 结果 是 什么 ? 
a.TOBEORNOTTITOBE 
b.YABBADABBADABBADOO 
cAAAAAAAAAAAAAAAAAAAAA 


串 (任意 位 置 都 有 独立 


的 吗 ? 
用 四 向 树 ”) 。 这 么 做 的 主要 优点 和 缺点 是 


@ 每 个 结 点 都 含有 4 条 链接 。 一 一 译 者 注 


5.5 数据 压缩 二 557 


5.5.17 总 结 LZW 编码 中 需要 特别 注意 的 情况 。 
解答 : 每 当 遇 到 形 如 cScSc 的 字符 串 时 都 会 出 现 这 种 情况 , 其 中 < 是 一 个 符号 而 $ 是 一 个 字符 串 ， 
字典 中 已 经 含有 cS 但 没有 cSc。 

5.5.18 设 五 是 第 个 斐 波 那 契 数 。 假 设 有 一 个 符号 序列 ， 其 中 第 个 符号 的 频率 为 fi。 注意 ， 
五 +t…+F=Fys-1。 给 出 相应 的 霍 夫 曙 编码。 提示: 最 长 编码 的 长 度 为 N-1。 

5.5.19 证 明 ， 对 于 给 定 的 YX 个 符号 的 集合 ， 至 少 存在 2” 种 不 同 的 零 夫 曼 编码 。 

5.5.20 ”给 出 一 种 霍 夫 曼 编码 ， 使 得 输出 中 的 0 的 出 现 频 率 比 1 要 高 得 多 。 


Ud 


答 : 如 果 字符 A 出 现 了 100 万 次 而 B 只 出 现 了 一 次 ,那么 将 A 的 编码 设 为 0，B 的 编码 设 为 1 即 可 。 【848 


5.5.21 请 证 明 在 任意 霍 夫 曼 编 码 中 ， 最 长 的 两 个 编码 的 长 度 必然 是 相等 的 。 

5.5.22 ”请 证 明 霍 夫 曼 编 码 的 以 下 性 质 : 如 果 符 号 i 的 出 现 频 率 大 于 符号 j]， 那 么 符号 i 的 编码 长 度 将 会 
小 于 等 于 符号 j 的 编码 长 度 。 

5.5.23 ”如 果 将 用 霍 夫 曼 编 码 得 到 的 字符 串 看 作 由 5 位 字符 组 成 的 字符 流 并 继续 用 霍 夫 曼 编码 处 理 它 ， 
结果 将 会 是 什么 ? 

5.5.24 按照 正文 中 示意 图 的 样式 显示 使 用 LZW 编码 处 理 以 下 字符 串 时 所 构造 的 编码 树 以 及 整个 压缩 和 

展开 的 过 程 。 
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it was the best of times it was the worst of times 


图 提高 是 


5.5.25 定 长 定 宽 的 编码 。 实 现 一 个 使 用 定 长 编码 的 RLE 类 来 压缩 不 同 字符 较 少 的 ASCII 字 节 流 ， 将 编 
码 输出 为 比特 流 的 一 部 分 ,在 compressQ 〇 方法 用 一 个 alpha 字 符 串 保存 输入 中 所 有 不 同 的 字母 ， 

] 它 得 到 一 个 Alphabet 对 象 以 供 compress 〇 方法 使 用 。 将 alpha 字符 串 〈8 位 编码 再 加 上 它 
的 长 度 ) 添加 到 压缩 后 的 比特 流 的 开头 。 修 改 expand0) 方法 ， 在 展开 之 前 先 读 取 它 的 字母 表 。 

5.5.26 重建 LZW 字典 。 修 改 LZW 算法 ， 当 字典 饱和 时 将 其 清空 。 这 种 方式 适合 某 些 应 用 程序 ， 因 为 
它 能 更 好 地 适应 输入 中 的 字符 变化 。 

5.5.27 较 长 的 重复 。 估 计 游 程 编码 、 霍 夫 曼 编码 和 LZW 编码 处 理 长 度 为 2N 的 一 条 字符 串 的 压缩 率 ， 


该 字符 串 由 长 度 为 Y 的 一 条 随机 ASCII 字符 串 (请 见 练习 5.5.9 ) 重复 而 成 。 850 


il 第 6 章 背 景 


在 现代 社会 中 ,计算 机 设备 无 处 不 在 ,在 过 去 的 几 十 年 中 ,我 们 世界 中 的 电子 设备 还 是 一 片 空白 ， 
但 现在 它们 已 经 成 为 数 十 亿 人 日 常 必 备 的 工具 。 今天 的 手机 甚至 都 比 30 年 前 只 有 少数 人 才 有 权 使 
用 的 超级 计算 机 强大 若干 个 数量 级 。 这 些 设备 高 效 工 作 的 背后 都 离 不 开 算法 ， 而 其 中 的 一 些 算法 本 
书 中 也 有 所 讨论 。 这 是 为 什么 呢 ? 因为 适 者 生存 。 可 扩展 的 (线性 的 和 线性 对 数 级 别 的 ) 算法 是 这 
个 过 程 的 核心 并 证 明了 高 效 算法 的 重要 性 。20 世纪 60 年 代 和 70 年 代 的 一 些 研 究 者 用 这 些 算 法 为 我 
们 的 今天 打下 了 基础 。 他 们 知道 ,可 扩展 的 算法 是 未 来 的 关键 , 而 过 去 几 十 年 的 发 展 也 证 明了 这 一 点 。 
现在 ， 基 础 设施 已 经 完备 ， 人 们 已 经 开始 利用 它们 达到 各 种 目的 。 正 如 B.Chazelle 所 说 ，20 世纪 是 
方程 的 世纪 ， 但 21 世纪 是 算法 的 世纪 。 

本 书 中 讨论 的 基础 算法 只 是 一 个 开始 。 当 算法 能 够 成 为 大 学 中 的 一 门 独立 学 科 时 ， 这 一 天 就 快 
要 到 来 了 (也许 已 经 来 了 ) 。 在 商业 应 用 、 科 学 计算 、 工 程 、 运 筹 学 和 其 他 无 数 有 待人 们 探索 的 领 
域 中 ， 高 效 的 算法 都 能 使 原来 不 可 能 解决 的 问题 得 到 解决 。 本 书 的 重点 是 学 习 重 要 而 实用 的 算法 。 
在 本 章 中 ， 我 们 会 沿 着 这 条 路 继续 讨论 几 个 示例 ， 它 们 能 够 说 明 已 经 学 过 的 一 些 算法 在 高 级 实践 情 
景 中 的 作用 。 ( 还 包括 一 些 学 习 算 法 的 方法 。 ) 为 了 说 明 算 法 的 影响 范围 ， 我 们 首先 列 出 算法 的 几 


个 重要 的 应 用 领域 ， 然 后 详细 讨论 几 个 有 代表 性 的 示例 并 介绍 算法 的 相关 理论 来 说 明 应 用 的 深度 。 
不 过 对 于 这 本 大 厚 书 来 说 ， 在 最 后 涉及 的 这 两 个 主题 都 是 介绍 性 的 ， 并 不 全 面 ， 实 际 生活 中 还 有 许 
多 同样 广泛 的 领域 、 同 样 重要 的 应 用 场景 、 同 样 有 影响 力 的 具体 问题 。 

商业 应 用 

互联 网 的 出 现 加 强 了 算法 在 商业 应 用 软件 中 的 核心 地 位 。 人 们 经 常 使 用 的 所 有 应 用 都 得 益 于 我 

们 已 经 学 过 的 许多 经 典 算法 : 

口 基础 设施 ( 操作 系统 、 数 据 库 、 通 信 ) ; 

口 应 用 程序 ( 电子 邮件 、 文 档 处 理 、 数 码 照片 ) ; 
口 出 版 〈 书籍 、 杂 志 、 网 络 内 容 ) ; 

口 网 络 〈 无线 网 络 、 社 交 网 络 、 互 联网 ) ; 

口 交易 处 理 ( 金融、 零售 、 网 络 搜索 ) 。 

本 章 中 将 会 讨论 一 个 有 代表 性 的 示例 ， 即 B- 树 。 它 是 为 20 世纪 60 年 代 的 大 型 机 发 明 的 一 种 
复杂 的 数据 结构 ， 但 今天 它 仍然 是 现代 数据 库 系 统 的 基础 结构 。 此 外 ， 还 将 讨论 用 于 文本 索引 的 后 
组 数组 。 
科学 计算 

自从 汉 诺 依 曼 在 1950 年 发 明了 归并 排序 之 后 , 算法 在 科学 计算 领域 逐渐 起 到 了 重要 的 作用 。 
今天 的 科学 家 需要 处 理 大 量 的 实验 数据 。 他 们 在 同时 使 用 数学 模型 和 计算 模型 来 理解 自然 世界 ， 
包括 : 


口 数学 计算 〈 多 项 式 、 和 矩阵 、 微 分 方程 ) ; 
口 数据 处 理 (实验 结果 和 观测 资料 ， 特 别 是 基因 组 学 ) ; 
口 计算 模型 和 模拟 。 

这 些 任 务 都 可 能 需要 大 量 复杂 的 海量 数据 计算 。 在 科学 计算 领域 ， 本 章 中 会 详细 讨论 的 一 个 
经 典 示 例 就 是 事件 驱动 模拟 问题 。 它 的 思想 是 维护 一 个 复杂 的 真实 世界 的 模型 并 根据 时 间 控 制 模 
型 中 发 生 的 变化 。 这 种 基础 方法 有 着 非常 多 的 应 用 。 此 外 还 将 讨论 一 个 基因 计算 领域 的 基础 数据 
处 理 问题 。 
工程 学 
现代 工程 学 的 基础 是 技术 ， 而 现代 技术 的 基础 是 计算 机 。 因 此 ， 算 法 能 够 发 挥 重要 作用 的 方 孟 
包括 : 
口 数学 计算 和 数据 处 理 ; 

口 计算 机 辅助 设计 和 生产 ; 
口 基于 算法 的 工程 设计 ( 网络、 控制 系统 ) ; 
口 图 像 和 其 他 医学 系统 。 

工程 师 和 科学 家 使 用 的 许多 工具 和 方法 都 是 相同 的 。 例 如 ， 科 学 家 用 计算 模型 和 模拟 来 理解 自 
然 世 界 ; 而 工程 师 用 计算 模型 和 模拟 来 设计 、 建 造 并 控制 他 们 所 制造 的 各 种 产品 。 
运筹 学 

运筹 学 领域 的 研究 者 和 实践 者 开发 了 各 种 数学 模型 并 用 它们 解决 了 许多 问题 ， 包 括 : 
口 任务 调度 ; 

口 决策 ; 
口 资源 分 配 。 

4.4 节 中 的 最 短路 径 问题 就 是 一 个 经 典 的 运筹 学 问题 。 本 章 会 再 次 讨论 它 并 介绍 最 大 流量 问题 。 
我 们 会 展示 规约 的 重要 性 并 讨论 它 对 于 问题 解决 (problem-solving ) 的 通用 模型 的 影响 ， 特 别 是 对 
运筹 学 中 核心 的 线性 规划 模型 的 影响 。 

算法 在 计算 机 科学 的 各 个 子 领域 中 都 有 着 重要 的 地 位 ， 它 的 应 用 领域 包括 ， 但 绝对 不 局 限于 : 
口 计算 几何 ; 

口 密码 学 ; 

口 数据 库 ; 

口 编程 语言 与 系统 ; 
口 人 工 智能 。 

在 所 有 领域 中 ， 说 明 问题 并 找到 有 效 算 法 和 数据 结构 来 解决 问题 都 是 非常 重要 的 。 我 们 已 经 学 
过 的 部 分 算法 是 可 以 直接 使 用 的 。 更 重要 的 是 ， 本 书 的 核心 内 容 ， 也 就 是 设计 、 实 现 和 分 析 算 法 的 
一 般 方 法 在 所 有 这 些 领域 中 都 已 经 被 成 功 地 验证 过 。 这 种 效应 已 经 从 计算 机 科学 扩散 到 了 许多 其 他 
领域 ,包括 体育 、 音 乐 、 语 言 学 、 金 融 、 神 经 科学 ， 等 等 。 

我 们 现在 已 经 学 习 了 许多 重要 上 是 实用 的 算法 ,那么 理解 它们 之 间 的 相互 关系 就 变 得 很 必要 了 。 
在 本 章 的 (也 是 本 书 的 ! ) 结尾 我 们 会 简要 介绍 计算 理论 ， 重 点 是 不 可 解 性 (intractability ) 和 
P=NP? 这 个 问题 。 它 们 仍然 是 理解 实践 中 遇 到 的 各 种 问题 的 关键 。 


6.0.1 事件 驱动 模拟 
我 们 的 第 一 个 示例 是 一 个 基础 的 科学 应 用 : 按照 弹性 


率 撞 的 原理 模拟 粒子 系统 的 运动 。 科 学 家 


Ie 
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通过 这 个 系统 可 以 理解 和 预测 物理 系统 的 性 质 。 这 个 模型 可 以 模拟 气体 中 分 子 的 运动 、 化 学 反应 的 
动态 过 程 、 原 子 扩散 、 最 密 堆 积 问 题 ( sphere packing ) 、 行 星 的 环 的 稳定 性 、 某 些 元 素 的 相 变 、 一 
维 自 引 力 体 系 前 向 阵 面 传播 技术 等 许多 问题 。 它 可 应 用 的 范围 从 分 子 运动 中 的 微小 亚 原子 粒子 到 天 
体 物理 学 中 巨大 的 星体 对 象 。 

讨论 这 个 问题 需要 一 些 高 中 物理 知识 、 一 些 软 件 工 程 的 知识 和 一 些 算法 知识 。 我 们 把 大 部 分 和 
物理 有 关 的 内 容留 作 练习 ， 而 主要 关注 使 用 基础 的 算法 工具 (基于 堆 的 优先 队列 ) ， 以 处 理 它 的 一 
个 实际 应 用 ， 将 不 可 能 的 计算 变 为 可 能 。 
6.0.1.1 刚性 球体 模型 

首先 介绍 一 个 理想 模型 ， 它 描述 的 是 原子 和 分 子 在 含有 以 下 性 质 的 容器 中 的 运动 : 
口 运动 的 粒子 与 墙 以 及 互相 之 间 的 碰撞 是 弹性 的 ; 
口 每 个 粒子 都 是 一 个 已 知 位 置 、 速 度 、 质 量 和 直径 的 球体 ; 
口 不 存在 其 他 外 力 。 

这 个 简单 的 模型 在 统计 力学 这 个 既 与 宏观 现象 ( 例如 温度 和 压力 ) 有 关 又 与 微观 现象 ( 例如 单 
个 原子 和 分 子 的 运动 ) 有 关 的 学 科 中 十 分 重要 。 麦 克 斯 韦 和 玻 尔 兹 曼 使 用 这 个 模型 得 到 了 由 温度 的 
函数 表示 的 相互 碰撞 的 分 子 的 速度 分 布 ， 爱 因 斯 坦 用 这 个 模型 解释 了 花粉 颗粒 在 水 中 的 布朗 运动 。 
不 存在 其 他 外 力 的 假设 意味 着 粒子 在 碰撞 之 前 是 在 做 匀速 直线 运动 。 我 们 也 可 以 通过 添加 其 他 作用 
力 来 扩展 这 个 模型 。 例 如 ， 如果 加 上 摩擦 力 和 自 旋 ， 那 就 可 以 更 加 准确 地 描述 一 些 熟悉 的 物理 运动 ， 
例如 台球 桌 上 的 台球 。 
6.0.1.2 ”时 间 驱 动 模拟 

我 们 的 主要 目标 是 维持 这 个 模型 ， 即 希望 能 够 记录 所 有 粒 
子 在 任意 时 间 内 的 位 置 和 速度 。 为 此 ， 需 要 计算 : 在 给 定 了 时 @. 
刻 上 时 的 所 有 粒子 的 位 置 和 速度 后 ， 再 给 出 dt 时 间 之 后 ， 即 未 
来 的 时 间 点 t+dt 时 它们 的 位 置 和 速度 。 如 果 所 有 粒子 互相 之 间 
以 及 和 墙 的 距离 都 很 远 ， 那 么 计算 就 很 简单 了 : 因为 粒子 的 轨 
迹 是 一 条 直线 , 所 以 只 需要 用 粒子 的 速度 就 可 以 更 新 它 的 位 置 。 
这 个 问题 的 挑战 在 于 要 考虑 碰撞 情况 。 一 种 解决 方法 叫做 时 间 @ © 
了 驱动 模拟 (请 见 图 6.0.1 ) ， 它 基于 使 用 固定 长 度 的 dt。 在 每 时 刻 t+2dt 
次 更 新 时 ， 我 们 都 需要 检查 所 有 粒子 对 ， 判 定 它们 是 否 可 能 相 
遇 ， 然 后 还 原 它们 的 第 一 次 碰撞 。 此 时 ， 我 们 将 会 更 新 两 个 粒 
子 的 速度 以 反映 出 碰撞 的 结果 ( 计算 方法 会 稍 后 讨论 ) 。 在 粒 2 
子 数量 很 多 时 , 这 种 方式 的 计算 量 非常 大 : 如 果 dt 是 以 秒 计 ( 一 将 时 刻 倒 回 磁 撞 发 生 的 时 候 
般 为 一 秒 的 若干 分 之 一 ) ， 它 模拟 NN 个 粒子 的 系统 一 秒 钟 的 运 
动 所 需 的 时 间 与 N/at 成 正比 。 这 种 成 本 太 昂 贵 了 ( 比 平方 级 _ 


别 的 算法 更 高 ) 在 一 般 的 应 用 中 ,NN 都 会 非常 大 而 dt 会 非 

常 小 。dt 的 问题 在 于 如 果 它 太 小 ， 计 算 量 就 太 高 ,但 如 果 它 大 

大 ， 那 就 可 能 错过 许多 次 碰撞 ， 请 见 图 6.0.2。 图 6.0.1 ”以 时 间作 为 驱动 的 模拟 

6.0.1.3 ”事件 驱动 模拟 
另 一 种 方法 是 仅 关注 碰撞 发 生 的 时 间 点 ， 重 点 关注 下 一 次 碰撞 〈 因为 在 此 之 前 由 速度 计算 得 到 

的 所 有 粒子 的 位 置 都 是 有 效 的 ) 。 因 此 ， 我 们 可 以 使 用 一 个 优先 队列 来 记录 所 有 事件 。 事 件 是 未 来 

的 某 个 时 间 的 一 次 潜在 的 碰撞 ， 可 能 发 生 在 两 个 粒子 之 间 ， 也 可 能 发 生 在 粒子 和 墙 之 间 。 和 每 个 事 


件 相关 联 的 优先 级 就 是 它 发 生 的 时 间 ， 因 此 当 从 优先 队列 中 gg 大小: 计算 量 大 大 
删 去 优先 级 最 低 的 元 素 时 ， 就 会 得 到 下 一 次 潜在 的 碰撞 。 - 


6.0.1.4 “碰撞 预 测 
我 们 如 何 才能 识别 潜在 的 磁 措 呢 ?粒子 的 速度 正好 提供 

了 这 个 必要 的 信息 。 例 如 ， 假 设 在 单位 空间 中 ， 在 时 刻 :有 一 

个 半径 为 s 速度 为 ws W 的 粒子 位 于 (5)。 假 设 二 位 于 = 大大， 可 能 错过 而 

处 , 高 度 y 在 0 到 1 之 间 。 我 们 感 兴趣 的 是 运动 的 横向 分 量 ， 3 区 

因此 注意 力 集中 在 位 置 的 x 分 量 和 速度 的 x 分 量 w 上 。 如 US 

果 是 负数 ， 那么 粒子 的 轨迹 不 会 与 墙 体 相交 ， 但 如 果 v. 是 

正 数 ， 那 就 存在 一 个 粒子 和 墙 的 潜在 碰撞 。 将 粒子 和 墙 的 间 全 eo 

距 (1-s-r) 除 以 速度 的 x 分 量 (vw)， 就 可 以 得 到 粒子 和 墙 的 碰 


撞 时 间 为 (1-s* 一 /ws 个 时 间 单 位 之 后 ， 此 时 粒子 的 位 置 将 为 图 6.0.2 ”驱动 模拟 的 主要 问题 
(1-=snyt+vdD)， 除 非 它 在 之 前 又 撞 上 了 其 他 某 个 粒子 或 者 墙 ， 请 

见 图 6.0.3。 因 此 ， 我 们 就 可 以 向 优先 队列 中 插入 一 个 优先 级 为 ttdt 的 条 目 ( 以 及 一 些 描 述 该 示例 和 
墙 的 碰撞 事件 的 信息 ) 。 墙 体 的 碰撞 预测 计算 都 是 类 似 的 ( 请 见 练习 6.1 ) 。 两 个 粒子 之 间 的 碰撞 也 
是 类 似 的 ， 但 更 加 复杂 一 些 。 不 过 你 会 注意 到 这 种 计算 得 到 的 预测 结果 通常 是 不 会 碰撞 ( 比如 粒子 正 
在 向 墙 体 的 反方 向 移动 ， 或 者 两 个 粒子 的 运动 方向 相反 ) 一 一 这 种 情况 下 就 不 需要 向 优先 队列 中 插入 
任何 东西 。 为 了 处 理 男 一 种 典型 情况 ， 也 就 是 预测 到 的 碰撞 距 现 在 的 时 间 太 远 时 ， 就 需要 一 个 1imit 
参数 来 指定 有 效 的 时 间 段 ， 这 样 就 可 以 忽略 时 间 晚 于 1imit 发 生 的 所 有 事件 了 。 


解 ( 时 间 ttdz) 加 
沿 撞 之 后 的 速度 = (一 v,V) 
撞 之 后 的 位 置 =( 1- s, n+ vdy 


En 


EB; 


预测 (时间 ) 一 — 
dt 三 撞墙 所 需 时 间 -一 二 1 处 
= 距离 /速度 Qi, 5) Eee 的 墙 体 
= (1— s—n )/vy rT 一 
Vv 
~ 三: 交 


图 6.0.3 ”预测 并 解决 粒子 和 墙 体 的 一 次 碰撞 


6.0.1.5 ”碰撞 计算 

当 发 生 碰 撞 时 ， 我 们 需要 使 用 物理 公式 来 进行 计算 ， 以 描述 一 个 粒子 在 和 另 一 个 粒子 或 者 墙 体 
发 生 弹 性 碰撞 时 的 行为 。 在 示例 中 ， 墙 体 遇 到 了 一 面 竖 墙 。 如 果 发 生 碰 撞 ， 粒 子 的 速度 将 会 从 (ww ) 
变 为 (-v,v,) ， 请 见 图 6.0.3。 其 他 墙 体 的 碰撞 和 它 类 似 。 两 个 粒子 的 碰撞 也 是 类 似 的 ， 但 要 更 加 
复杂 一 些 ( 请 见 练习 6.1 ) 


预测 (时间 
两 个 粒子 将 会 发 生 碰 樟 ， 区 


除非 某 一 个 提前 通过 了 交汇 点 > 


SS 2 


i 
“We 


解 ( 时 间 t+aq) 
碰撞 之 后 两 个 粒子 
的 速度 都 会 发 生 改 变 


图 6.0.4 ”预测 并 计算 粒子 之 间 的 一 次 碰撞 
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6.0.1.6 ”排除 无 效 事件 。 


预测 的 许多 碰撞 实际 上 都 不 会 发 生 ， 因 为 它们 被 其 他 的 碰撞 打 断 了 ， 和 入 了 向 -而 
请 见 图 6.0.7。 为 了 处 理 这 种 情况 ， 我 们 为 每 个 粒子 维护 一 个 实例 变量 增 体 运动 


来 记录 和 它 有 关 的 碰撞 数量 。 当 从 优先 队列 中 取出 一 个 事件 来 处 理 时 ， 
我 们 会 检查 该 事件 所 涉及 粒子 的 碰撞 计数 需 在 事件 被 创建 后 是 否 已 经 更 


Da 
新 。 这 是 排除 无 效 碰撞 的 延 时 方法 ， 当 菜 个 粒子 参与 了 一 次 而 擅 时 ， 我 。。 而 mg 将 
们 不 会 删除 优先 队列 中 和 该 粒子 有 关 的 其 他 碰撞 (尽管 这 些 碰撞 事件 现 磁 术 的 往 子 


在 都 已 经 无 效 了 ), 而 是 会 在 之 后 过 到 它们 时 直接 将 其 忽略 ,请 见 图 6.0.6。 
另 一 种 即时 的 方式 是 立刻 从 优先 队列 中 删除 所 有 与 参与 当前 事件 的 粒子 


图 6.0.5 可 预测 的 事件 


相关 的 其 他 事件 ， 然 后 再 计算 这 些 粒 子 的 新 潜在 碰撞 事件 。 这 种 方式 需要 的 优先 队列 更 加 复杂 〈 需 


[el 


要 实现 删除 操作 ) 。 


以 上 讨论 了 一 些 预备 知识 ， 这 些 都 是 对 按照 物理 定律 进行 弹性 碰撞 的 运动 粒子 执行 事件 驱动 
模拟 所 必 备 的 。 相 应 的 软件 架构 会 将 实现 封装 在 3 个 类 中 : 一 个 Particle 数据 类 型 ， 封 装 了 所 
有 和 粒子 有 关 的 计算 ; 一 个 Event 数据 类 型 来 预测 事件 ; 一 个 它们 的 用 例 Co11isionSystem 类 


用 来 完成 模拟 。 模 拟 的 核心 是 一 个 含有 所 有 事件 的 MinPQ 优先 队列 ， 按 照 时 间 排 序 。 下 本 


[看 一 下 


Particle、Event 和 CollisionSystenm 的 实现 。 


粒子 背 向 一 
”和 面 廊 体 运 动 


\ 


时 
NA 


两 颗 运行 在 碰撞 轨道 上 的 粒子 


粒子 相互 离开 WD 
一 一 ™& 


第 三 颗粒 子 干 扰 : 碰撞 不 会 发 生 


一 个 粒子 先 于 另 一 
个 粒子 到 达 碰 撞 点 


| 


| 碰撞 发 生 的 


时 间 过 于 遥远 
图 6.0.6 可 预测 的 不 可 能 发 生 的 事 
6.0.1.7 ”粒子 


ig 


件 图 6.0.7 一 次 失效 的 事件 


练习 6.1 基于 牛顿 的 运动 学 定律 给 出 了 粒子 数据 类 型 的 实现 要 点 。 模 拟 用 例 应 该 能 够 移动 粒子 、 


画 出 粒子 并 进行 若干 和 碰撞 相关 的 计算 ， 如 表 6.0.1 中 的 API 所 示 。 


表 6.0.1 运动 的 粒子 对 象 的 API 


public class Particle 


ParticleQ) 在 单位 空间 中 创造 一 个 新 的 随机 粒子 


public class Particle 


Particle( 


j 给 定 的 位 置 、 速 度 、 半 径 和 质量 创建 一 个 粒子 


double rx, double ry, 
double vx, double vy, 


double s， 


double mass) 


void drawO) 


画 出 粒子 


void move(double dt) 根据 时 间 的 流逝 dt 改变 粒子 的 位 置 
int countO) 该 粒子 所 参与 的 碰撞 总 数 
double timeToHitCParticle b) 距离 该 粒子 和 粒子 b 碰撞 所 需 的 时 间 
double timeToHitHorizontalwWal10) 距离 该 粒子 和 水 平 的 墙 体 碰撞 所 需 的 时 间 
double timeToHitVerticalWall() 距离 该 粒子 和 垂直 的 墙 体 碰撞 所 需 的 时 间 
double bounceOff(Particle b) 碰撞 后 该 粒子 的 速度 
double bounceOffHorizontalWallO 碰撞 水 平 墙 体 后 该 粒子 的 速度 
double bounceOffVerticalWall() 碰撞 垂直 墙 体 后 该 粒子 的 速度 
当 粒 子 不 在 碰撞 i 时 (这 是 很 常见 的 )，3 个 timeToHit*() 的 方法 都 会 返回 Double. 


POSITIVE_INFINITY。 这 些 方法 可 以 帮助 预测 给 入 定 粒子 在 未 来 的 所 有 辜 挤 ， 将 在 1imit 时 间 内 发 


生 的 碰撞 事件 插入 优先 队 
列 。 在 处 理 两 颗粒 子 相 接 的 
事件 时 ， 使 用 bounceOff() 
方法 计算 两 颗粒 子 在 碰撞 之 
后 的 速度 。bounce0ff*() 
方法 用 于 处理 粒子 和 墙 体 之 
间 的 碰撞 事件 。 
6.0.1.8 ”事件 

我 们 将 应 该 放 入 优先 
队列 中 的 所 有 对 象 信息 封装 
在 一 个 私有 类 之 中 《各 种 事 
件 ) 。 实 例 变 量 time 记录 
的 是 事件 的 预计 发 生 时 间 ， 
实例 变量 a 和 b 保存 的 是 和 
该 事件 相关 的 粒子 。 这 里 有 
3 种 不 同类 型 的 事件 : 粒子 
和 垂直 墙 体 碰撞 、 粒 子 和 水 
平 墙 体 碰撞 、 粒 子 和 粒子 碰 
撞 。 为 了 平滑 动态 地 显示 运 
动 中 的 粒子 ， 我 们 添加 了 第 
4 种 类 型 的 事件 ， 即 重 绘 事 


private class Event implements Comparable<Event> 


€ 


private final double time; 
private final Particle a, b; 
private final int countA, countB; 


public Event(double t, Particle a, Particle b) 
{ // 创造 一 个 发 生 在 时 间 t 且 与 a3 和 b 相 关 的 新 事件 


this.time = t; 
this.a = ai 
this.b = 
if (a l= null) countA = a.count(); else countA = =1; 
if (b != null) countB = b.count(); else countB = -1; 
public int compareTo(Event that) 
fF (this.time < that.time) return -1; 
else if (this.time > that.time) return +1; 
else return 0; 
public boolean isvalid0) 
if (a != null && a.count() != countA) return false; 
if (b != null && b.count() != countB) return false; 
return true; 
; 


粒子 模拟 的 事件 类 
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-时 
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件 。 它 的 作用 是 将 所 有 粒子 在 它们 的 当前 位 置 画 出 。 为 了 使 Event 的 实现 能 够 表示 这 4 种 类 型 的 事 
件 ， 人 允许 粒子 的 值 为 空 Cnu11 ) : 

口 a 和 b 均 不 为 空 : 粒子 与 粒子 碰撞 ; 

口 a 非 空 而 b 为 空 : 粒子 a 和 垂直 墙 体 的 碰撞 ; 

口 a 为 空 而 b 非 空 : 粒子 b 和 水 平 墙 体 的 碰撞 ; 

口 a 和 b 均 为 空 : 重 绘 事件 〈 画 出 所 有 粒子 ) 

尽管 没有 完全 遵循 面向 对 象 编程 的 原则 但 这 些 约 能 够 得 到 简洁 的 用 例 代 码 。 它 的 实现 如 上 
一 页 右 下 角 的 框 注 所 示 。 

Event 类 型 实现 中 的 第 二 个 技巧 是 ， 它 维护 了 两 个 实例 变量 countA 和 countB， 以 记录 事件 创 
时 每 个 粒子 所 参与 的 碰撞 事件 数量 。 如 果 在 将 事件 从 优先 队列 中 取出 时 该 值 没 有 发 生变 化 ， 2 


以 继续 模拟 这 个 事件 的 发 生 。 


带 发 生 了 变化 ， 
6.0.1.9 ”模拟 器 代码 


有 了 封装 在 Particl 


和 Event 类 中 的 运算 ， 实 际 
模拟 所 需 的 代码 非常 少 ， 
的 实现 所 
示 ( 请 见 框 注 “基于 事件 模拟 
互相 碰撞 的 粒子 (框架 ) ” 


CollisionSystem 


昭 


这 个 事件 就 失效 了 , 那 就 可 以 忽略 它 。 


框 注 “ 基 于 事件 模拟 互相 碰 
) 。 大 多 
数 运算 都 封装 在 右 侧 框 注 所 示 
的 predictCollision() 方法 
会 计算 与 粒子 a 


的 粒子 ( 主 循 环 )” 


中 。 


这 个 方法 


但 如 果 在 这 个 事件 进入 优先 队列 和 离开 优先 队列 的 这 段 时 间 内 任何 计数 
方法 isValidQ 支持 用 例 代码 检查 这 种 情况 。 


e 类 private void predictCollisions(Particle a, double 1imit) 
和 
if (a == null) return; 
如 for (int i = 0; i < particles.length; i++) 
{ // 将 与 particles[ji] 发 生 碰撞 的 事件 插入 pq 中 
double dt = a.timeToHit(particles[i]); 
if (tT dt <= |imit) 
和 pq.insert(new Event(t + dt, a, particles[i])); 
撞 double dtX = a.timeToHitVerticalWallQO; 


有 关 的 所 有 潜在 碰撞 ( 可 能 是 
和 为 一 个 粒子 ， 也 可 能 是 和 一 
面 墙 ) 并 将 相应 的 事件 加 入 优先 队列 中 。 


模拟 的 核心 是 框 注 


会 调用 predictCo11ision() 方法 来 初始 化 每 个 粒子 ， 
然后 进入 事件 驱动 模拟 的 主 循环 ， 
口 取出 即将 发 生 的 事件 (时间 为 1 的 优先 级 最 小 的 事件 ) ; 
口 如 果 事 件 无 效 ， 将 它 忽 略 ; 


在 碰撞 加 入 优先 队列 中 ， 


if (t+ dtX <= limit) 
pq.insert(new Event(t + dtX, a, null)); 
double dtY = a.timeToHitHorizontalWallQO; 
if (t+ dtY <= 1imit) 
pq.insert(new Event(t + dtY, null, 


预测 其 他 粒子 的 碰撞 事 


“基于 事件 模拟 互相 而 


口 按照 直线 运动 轨迹 


口 更 
口 使 


所 所 有 参与 碰撞 的 粒子 速度 ; 
] predictCol11ision() 方法 来 预测 参与 碰撞 的 粒子 在 未 来 可 能 


队列 中 插入 相应 的 事件 。 


这 个 模拟 过 程 可 以 作为 计算 系统 


的 一 种 基本 性 质 是 所 有 粒子 


J 向 墙 


性 质 的 计算 也 是 类 似 的 。 


体 所 施加 的 压力 。 计 算 这 利 
的 次 数 和 动量 ( 根据 粒子 的 质量 和 速度 计算 这 个 值 很 简单 ) 


使 所 有 粒子 运动 到 时 间 也 


撞 的 粒子 〈 主 循环 ) ” 
将 所 有 粒子 和 载体 以 及 粒子 和 粒子 之 间 的 潜 
它 的 任务 包括 : 


dD 


全 


件 


中 的 simulate() 方法 。 我 们 


生 的 碰撞 ， 


并 向 优先 


中 的 各 种 有 趣 性 质 的 基础 ， 如 练习 所 示 。 人 例如， 我们 所 感 兴趣 
Ph 压 力 的 一 种 方法 是 记录 墙 体 和 粒子 碰撞 
， 这 样 就 很 容易 得 到 它们 的 总 量 。 温 度 
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基于 事件 模拟 互相 碰撞 的 粒子 〈 框 架 ) 


public class CollisionSystem 
private class Event implements Comparable<Event> 
{ /* 请 见 正文 */ } 


private MinPQ<Event> pq; // 优先 队列 
private double t = 0.0; // 模拟 时 钟 
private Particle[] particles; // 粒子 数组 


public CollisionSystem(Particle[] particles) 
{ this.particles = particles; } 


private void predictCollisions(Particle a, double 1imit) 
{ /* 请 见 正文 */ } 


public void redraw( 人 double 1imit，double Hz) 
{ // 重 绘 事件 : 重新 画 出 所 有 粒子 
StdDraw.clear() ; 
for(Cint i = 0; i < particles.length; i++) particles[i].draw() ; 
StdDraw. show(20); 
if (t < 1imit) 
pq.insert(new Event(t + 1.0 / Hz, null, null)); 
} 


public void simulate(double 1imit, double Hz) 
{ /* 请 见 后 面 的 主 循环 代码 */ } 


public static void main(String[] args) 

{ 
StdDraw. show(0); 
int N = Integer.parseInt(args[0]); 
Particle[] particles = new Particle[N]; 


for Cint i = 0; i < N; i++) 
particles[i] = new Particle0) ; 


CollisionSystem system = new CollisionSystem(particles); 
system.simulate(10000, 0.5); 


} 
该 类 使 用 了 优先 队列 来 模拟 粒子 系统 随 着 时 间 的 运动 。 测 试用 例 mainQ 〇 接受 命令 行 参数 N， 创 造 
了 N 个 随机 粒子 并 创建 了 含有 所 有 粒子 的 Co11isionSystem， 然 后 调用 simulate() 方法 模拟 系统 的 演 
化 。 其 中 的 实例 变量 分 别 保存 了 模拟 所 需 的 优先 队列 、 当 前 时 间 和 所 有 粒子 。 863 


基于 事件 模拟 互相 碰撞 的 粒子 〈 主 循环 ) 


public void simulate(double 1imit，double Hz) 

{ 
pq = new MinPQ<Event>() ; 
for (int i = 0; i < particles.length; i++) 

predictCollisions(particles[i], limit); 

pq.insert(new Event(0,，null1，nu11)); // 添加 重 绘 事件 
while (!pq.isEmptyO)) 
{ // 处 理 一 个 事件 
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Event event = pq.delMinQO); 

if (levent.isValid()) continue; 

for (int i1 = 0; i < particles.length; i++) 
particles[i] .move(event.time - t); // 更 新 粒子 的 位 置 


t = event.time; // 和 时 间 
Particle a = event.a, b = event.b; 
if (a != null && b != nul1) a.bounceOff(b); 


else if (a != null && b == null) a.bounceOffVerticalWallQO; 
else if (a == null && b != null) b.bounceOffHorizontalWallQO; 
else if (a == null && b == null) redraw(limit, Hz); 
predictCollisions(a, limit); 
predictCollisions(b, 1imit); 
3 
} 


该 方法 是 事件 驱 % java CollisonSystem 5 一 次 磁 撞 
动 模拟 的 主要 部 分 。 
首先 ， 我 们 用 所 有 粒 er e 一 ~ FA Camry 
子 预测 的 所 有 未 来 碰 
撞 初 始 化 优先 队列 。 
然后 ， 主 循环 从 队列 
中 取出 一 个 事件 ， 更 
新 时 间 和 粒子 的 位 
置 ， 并 在 处 理 碰 撞 后 
向 队列 中 加 入 由 此 产 SS 
生 的 所 有 新 的 潜在 
864| ”碰撞 


6.0.1.10 ”性 能 
如 本 小 节 的 开头 所 述 ， 我 们 对 于 事件 驱动 模拟 的 主要 兴趣 在 于 避免 时 间 驱 动 模拟 的 内 循环 所 必 
须 的 大 量 计算 。 


命题 A。 对 入 个 能 够 相互 碰撞 的 粒子 系统 ， 基 于 事件 的 模拟 在 初始 化 时 最 多 需要 NV 次 优先 队 
列 操作 ， 在 碰撞 时 最 多 需要 NN 次 优先 队列 操作 ( 且 对 于 每 个 无 效 的 事件 都 需要 一 次 额外 的 操 
修了》 a 


证 明 。 请 见 代码 。 


如 果 使 用 2.4 节 中 优先 队列 的 标准 实现 ,我 们 能 够 保证 优先 队列 的 每 次 操作 都 是 对 数 级 别 的 ， 
因此 每 次 碰撞 所 需 的 时 间 是 线性 对 数 级 别 的 。 这 样 ， 才 有 可 能 模拟 大 量 的 粒子 。 

事件 驱动 模拟 已 经 被 应 用 于 无 数 需 要 对 运动 中 的 物理 对 象 建 模 的 其 他 领域 ,例如 分 子 学 、 天 体 
物理 学 和 机 器 人 技术 。 这 些 应 用 可 能 会 用 其 他 实体 ， 或 是 三 维 空间 ， 或 是 其 他 作用 力 等 许多 种 方法 
扩展 这 个 模型 。 每 种 扩展 都 会 为 计算 带 来 新 的 挑战 。 这 种 事件 驱动 的 方式 得 到 的 模拟 比 其 他 方法 更 
加 健壮 、 准 确 和 高 效 ， 而 基于 堆 的 优先 队列 的 效率 使 不 可 能 完成 的 计算 成 为 了 可 能 。 

模拟 在 科学 和 工程 的 各 个 领域 都 是 帮助 研究 者 理解 自然 世界 中 各 种 性 质 的 重要 工具 。 它 的 应 用 


从 制造 业 、 生 物 学 、 金 融 领域 到 复杂 的 工程 结构 ， 数 不 胜 数 。 对 于 它们 其 中 的 一 大 部 分 应 用 ， 基 于 
堆 的 优先 队列 数据 类 型 或 是 高 效 的 排序 算法 能 够 使 模拟 的 质量 和 范围 大 有 改观 。 


6.0.2 B- 树 

在 第 3 章 中 我 们 已 经 看 到 ， 能 够 快速 访问 大 量 数据 中 的 特定 元 素 的 算法 对 于 实际 应 用 有 着 重要 
意义 。 例 如 在 巨型 数据 集中 ， 查 找 是 一 项 非常 重要 的 操作 ， 该 操作 在 许多 计算 场景 中 会 消耗 掉 大 部 
分 资源 。 随 着 互联 网 的 进步 ， 某 项 任务 访问 到 的 信息 可 能 非常 庞大 一 一 我 们 的 挑战 在 于 在 其 中 进行 
有 效 地 查找 。 在 本 小 节 中 ,我们 将 介绍 一 种 3.3 节 的 平衡 树 算法 的 扩展 。 它 支持 对 保存 在 磁盘 或 者 
网 络 上 的 符号 表 进 行 外 部 查找 ， 这 些 文件 可 能 比 我 们 以 前 考虑 的 输入 要 大 的 多 ( 以 前 的 输入 能 够 
保存 在 内 存 中 ) 。 现 代 软 件 系统 正在 淡化 本 地 文件 和 网 页 之 间 的 区 别 ， 这 些 内 容 也 可 能 保存 在 一 
台 远 程 计 算 机 上 ， 因 此 我 们 可 以 找到 的 信息 实际 上 近似 于 无 限 。 令 人 惊讶 的 是 ， 我 们 将 要 学 习 的 
算法 只 需 使 用 4 ~ 5 个 指向 一 小 块 数据 的 引用 即 可 有 效 支持 在 含有 数 百 亿 或 者 更 多 元 素 的 符号 表 
中 进行 查找 和 搬入 操作 。 
6.0.2.1 成 本 模型 

数据 存储 的 机 制 多 种 多 样 且 在 不 断 发 展 ， 因 此 我 们 将 使 用 一 个 能 够 抓 住 本 质 的 简单 模型 。 这 里 
用 页 表示 一 块 连续 的 数据 ， 用 探查 表示 访问 一 个 页 。 假 设 访问 一 页 需要 将 它 的 内 容 读 和 人 本 地 内 存 ， 
因此 之 后 的 访问 就 可 以 相对 高 效 。 一 个 页 可 能 是 本 地 计算 机 上 的 一 个 文件 ， 也 可 能 是 远程 计算 机 上 
的 一 张 网 页 ， 也 可 能 是 服务 器 上 的 某 个 文件 的 一 部 分 ， 等 等 。 我 们 的 目标 是 实现 能 够 仅 用 极 少 次 数 
的 探查 即 可 找到 任意 给 定 键 的 查找 算法 。 我 们 不 想 假 设 页 的 具体 大 小 或 者 一 次 探查 ( 对 于 远程 设备 
显然 需要 通信 ) 所 需 时 间 与 随后 访问 块 中 内 容 ( 显然 这 发 生 在 本 地 处 理 器 上 ) 所 需 时 间 的 比例 。 在 
一 般 情 况 下 ， 这 些 值 的 数量 级 可 能 是 100、1000 或 者 10 000。 我 们 不 需要 更 精确 的 值 ， 因 为 在 我 们 
感 兴 趣 的 范围 内 ， 算 法 对 这 些 值 的 不 同 并 不 非常 敏感 。 


B- 树 的 成 本 模型 。 我 们 使 用 页 的 访问 次 数 ( 无 论 读 写 ) 作为 外 部 查找 算法 的 成 本 模型 。 


6.0.2.2 B- 树 

它 是 对 3.3 节 所 述 的 2-3 树 数 据 结构 的 扩展 。 关 键 的 不 同 在 于 : 我 们 不 会 将 数据 保存 在 树 中 ， 
而 是 会 构造 一 棵 由 键 的 副本 组 成 的 树 ， 每 个 副本 都 关联 着 一 条 链接 。 这 种 方式 能 够 更 加 方便 地 将 
索引 和 符号 表 本 身分 开 ， 就 像 一 本 实体 书 中 的 索引 一 样 。 和 2-3 树 一 样 ， 我 们 限制 了 每 个 结 点 中 能 
够 含有 的 “ 键 -链接 ”对 的 上 下 数量 界限 : 选择 一 个 参数 M ( 一般 都 是 一 个 偶数 ) 并 构造 一 棵 多 向 
树 ， 每 个 结 点 最 多 含有 M-1 对 键 和 链接 ( 假设 M 足够 小 ， 使 得 每 个 M 向 结 点 都 能 够 存放 在 一 个 页 
中 ) ,最少 含有 M/2 对 键 和 链接 ( 以 提供 足够 多 的 分 支 来 保证 查找 路 径 较 短 ) 。 根 结 点 是 个 例外 ， 
它 可 以 含有 少 于 M/2 对 键 和 链接 ， 但 也 不 能 少 于 2 对 。 这 种 树 被 Bayer 和 McCreight 在 1970 年 
命名 为 B- 树 。 他 们 是 最 早 使 用 多 向 平衡 树 进行 外 部 查找 的 研究 者 。 有 些 人 也 用 B- 树 这 个 术语 来 描 
述 Bayer 和 McCreight 发 明 的 算法 所 构造 的 数据 结构 。 本 节 用 它 泛 指 所 有 基于 固定 页 大 小 的 多 向 平 
衡 查 找 树 的 数据 结构 。 我 们 用 M 阶 的 B- 树 来 指定 M 的 值 。 在 一 棵 4 阶 B- 树 中 ， 每 个 结 点 都 含有 
至 少 2 对 至 多 3 对 键 - 链接 ; 在 一 棵 6 阶 B- 树 中 (请 见 图 6.0.8 ) ， 每 个 结 点 都 至 少 含有 3 对 至 多 
5 对 键 -链接 ( 根 结 点 除外 ， 它 可 以 只 含有 2 对 键 与 链接 ) ， 等 等 。 对 于 较 大 的 M 根 结 点 是 个 例外 
的 原因 ， 在 学 习 构 造 算法 的 细节 时 你 就 会 明白 了 。 
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6.0.2.3 ”约定 


每 个 加 粗 的 键 
都 是 子 树 中 的 一 ~ 
最 小 键 的 副本 
外 部 的 ? (饱和 ) 


除了 根 结 点 之 外 ， 所 有 结 点 均 为 3- 结 点 、4- 结 点 或 者 5- 结 点 


BR 


天 
符号 表 的 键 (黑色 ) 
保存 在 外 部 结 点 中 


图 6.0.8 详解 用 一 棵 B- 树 表示 的 键 集 WE-6) 


为 了 说 明基 本 的 流程 ， 我 们 先 讨论 ( 有 序 ) 〈 集 合 ) SET 的 一 个 实现 ( 只 有 和 键 没有 值 ) 。 将 它 
扩展 得 到 一 个 能 够 将 键 和 值 相关 联 的 符号 表 实 现 是 一 个 很 好 的 练习 ( 请 见 练习 6.16 ) 。 我 们 的 目标 
是 为 一 个 巨大 的 键 集 实现 add() 和 contains () 方法 。 使 用 有 序 集 的 原因 是 我 们 希望 将 查找 树 推广 ， 
而 这 依赖 于 键 的 有 序 性 。 扩 展 实现 来 支持 其 他 有 序 性 操作 也 是 十 分 有 益 的 练习 。 外 部 查找 的 应 用 党 
常会 将 索引 和 数据 隔离 。 对 于 B- 树 ， 我 们 通过 使 用 以 下 两 种 不 同类 型 的 结 点 做 到 这 一 点 。 


口 内 部 结 点 
口 外 部 结 点 


: 含有 与 页 相关 联 的 键 的 副本 。 
: 含有 指向 实际 数据 的 引用 。 


Lv 


内 部 结 点 中 的 每 个 键 都 与 一 个 结 点 相关 联 ， 以 此 结 点 为 根 的 子 树 中 ， 所 有 的 键 都 大 于 等 于 与 此 
结 点 关联 的 键 ， 但 小 于 原 内 部 结 点 中 更 大 的 键 〈 如 果 存 在 的 话 ) 。 为 了 方便 这 里 使 用 了 一 个 特殊 的 
哨兵 键 , 它 小 于 其 他 所 有 键 。 一 开始 B- 树 只 含有 一 个 根 节点 , 而 根 结 点 在 初始 化 时 仅 含 有 该 哨兵 键 。 
符号 表 不 含有 重复 键 , 但 我 们 会 ( 在 内 部 结 点 中 ) 使 用 键 的 多 个 副本 来 引导 查找 。 ( 在 示例 中 ， 所 
有 键 都 是 单个 字母 并 使 用 小 于 所 有 字母 的 “*” 作 为 哨兵 键 。) 这 些 约定 能 够 一 定 程 度 上 简化 代码 ， 
并 且说 明了 为 一 种 在 内 部 结 点 中 将 所 有 数据 和 链接 混合 的 便利 ( 而 且 是 广泛 使 用 的 ) 方式 ， 就 像 其 


他 查找 树 一样 。 


6.0.2.4 查找 和 插入 


B- 树 中 查找 
包含 在 集合 中 时 ， 


的 基础 是 在 可 能 含有 被 查找 键 的 唯一 子 树 中 进行 递归 搜索 。 当 且 仅 当 被 查找 的 键 
每 次 查找 便 会 结束 于 一 个 外 部 结 点 。 在 内 部 结 点 中 遇 到 被 查找 的 键 的 副本 时 就 判 


断 查找 命中 并 结束 ,但 总 会 找到 相应 的 外 部 结 点 ， 因 为 这 么 做 可 以 简化 将 B- 树 扩展 为 有 序 符号 表 


的 实现 ( 当 M 很 


大 时 这 种 情况 很 少 出 现 ) 。 举 一 个 具体 的 例子 : 假设 有 一 棵 6 阶 B- 树 ， 该 树 由 多 


个 含有 3 对 键 -链接 的 3- 结 点 、 含 有 4 对 键 -链接 的 4- 结 点 和 含有 5 对 键 - 链 接 的 5- 结 点 以 及 
一 个 2- 根 结 点 组 成 ， 请 见 图 6.0.9。 在 查找 时 ， 从 根 结 点 开始 ， 根 据 被 查找 的 键 选择 当前 结 点 中 的 
适当 区 间 并 根据 适当 的 链接 从 一 个 结 点 移动 到 下 一 个 结 点 。 最 终 ， 碍 找 过 程 会 到 达 树 底 的 一 个 含有 
键 的 页 。 如 果 被 查找 的 键 在 该 页 中 ， 查 找 命中 并 结束 ; 如 果 不 在 ， 则 查找 未 命中 。 和 2-3 树 一 样 ， 
要 在 树 的 底部 插入 一 个 新 键 ， 可 以 使 用 递归 代码 。 如 果 空 间 不 足 ， 那 么 可 以 允许 被 搬入 的 结 点 暂 
时 “ 海 出 ”《〈 变 成 一 个 6- 结 点 ) ， 并 在 递归 调用 后 向 上 不 断 分 裂 6- 结 点 。 如 果 根 结 点 也 变 成 了 6- 
结 点 ,， 则 可 以 将 它 分 裂 成 连接 了 两 个 3- 结 点 的 2 一 结 点 ; 对 于 树 的 其 他 位 置 , 我 们 将 6- 结 点 的 父 太 
结 点 变 为 连接 着 两 个 3- 结 点 的 (+1)- 结 点 。 将 上 文中 的 3 蔡 换 成 W2，6 替换 成 M， 即 可 得 到 M 
阶 B- 树 中 的 查找 和 插入 操作 的 方法 ， 请 见 图 6.0.10。 定 义 如 下 所 示 。 


定义 。 一 棵 1 阶 B- 树 (MM 为 正 偶数 ) 或 者 仅 是 一 个 外 部 碟 结 点 (含有 kk 个 刍 和 相关 信息 的 树 ) ， 
或 者 由 车 干 内 部 厂 结 点 (每 个 结 点 都 含有 个 键 和 条 链接 ， 链 接 指向 的 子 树 表示 了 键 之 间 的 间 


隔 区 域 ) 组 成 。 它 的 结构 性 质 如 下 : 从 根 结 点 到 每 个 外 部 结 点 的 路 径 长 度 均 相 同 ( 完美 平衡 ) ; 对 
于 根 结 点 , Kk 在 2 到 M-1 之 间 ， 对 于 其 他 结 点 在 M2 到 M-1 之 间 。 
查找 E 二 
跟随 这 条 链接 ， 因 
为 E 在 * 和 K 之 间 全 
Er 
跟随 这 条 链接 ， 因 
-一 为 E 在 D 和 H 之 间 
在 该 外 部 结 -全 
点 中 查找 E 
图 6.0.9 在 由 B- 树 表示 的 键 集中 进行 查找 (M=6) 
插入 A 
新 插入 的 键 A 造 * 一 一 9 键 C 造 成 了 溢出 和 分 裂 
产 反 人 的 各 新 插入 的 键 C 造 成 了 溢出 和 分 裂 
*|A|B 
< 根 结 点 的 分 裂 产生 
了 一 个 新 的 根 结 点 
图 6.0.10 向 由 B- 树 表示 的 键 集 中 插入 一 个 新 键 
6.0.2.5 数据 表示 
按照 刚才 的 讨论 ， 我 们 在 选择 B- 树 结 点 的 表示 方法 上 有 很 大 的 自由 度 。 我 们 将 这 些 选择 封装 
在 一 个 Page API 中 ( 请 见 表 6.0.2 ) 。 它 可 以 关联 键 与 指向 Page 对 象 的 链接 ， 支 持 检测 页 是 否 游 出、 
分 裂 页 并 区 分 内 部 页 和 外 部 页 的 操作 。 你 可 以 将 Page 看 作 一 张 符 号 表 ， 但 是 是 保存 在 外 部 介质 上 


的 (本 地 或 是 网 络 上 的 文件 ) 。API 中 的 术语 “打开 ”( open ) 和 “关闭 ”( close ) 指 的 是 将 外 部 页 


读 入 内 存 和 将 内 存 内 容 写 回 外 部 页 ( 如 果 需 要 的 话 ) 的 过 程 。 内 部 页 的 add 0 〇 方法 是 一 人 


人 人 Ai 口 


| a 


表 操 
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章 首 


作 ， 


会 将 给 定 页 和 以 该 页 为 根 结 点 的 子 树 中 的 最 小 键 关联 起 来 。 外 部 页 的 addQO 和 contains (0) 方 


法 和 SET 中 相应 的 方法 类 似 。 在 所 有 实现 中 ， 最 重要 的 方法 都 是 sp1itQ。 在 分 裂 一 张 饱 和 页 时 ， 
sp1itQ 方法 会 将 排序 后 位 置 正好 大 于 MI2 的 键 移动 到 一 个 新 的 Page 对 象 中 ， 并 返回 该 对 象 的 引 


用 。 练 习 6.15 讨论 了 使 用 BinarySearchST 对 Page 的 一 种 实现 。 这 种 方法 将 B- 树 实现 在 了 内 存 中 ， 
和 其 他 查找 树 的 实现 一 样 。 在 某 些 系统 中 ， 


这 种 外 部 查找 的 实现 


可 能 已 经 足够 了 ， 因 为 虚拟 内 存 系 


统 会 处 理 磁盘 访问 。 更 加 贴近 实际 的 实现 可 能 包含 与 硬件 相关 的 代码 来 读 取 和 写 入 页 的 内 容 。 练 习 
6.19 会 鼓励 你 实现 Page 用 于 网 页 。 这 里 不 会 讨论 这 些 细节 ， 而 强调 的 重点 是 B- 树 的 概念 能 够 广泛 


用 于 各 种 场景 之 中 。 


public class 


表 6.0.2 B- 树 的 页 的 API 


Page<Key> 


void 
void 


void 


boolean 
boolean 

Page 

boolean 

Page 
Iterable<Key> 


Page(boolean bottom) 
close() 

add(Key key) 
add(Page p) 


isExternalO 
contains(Key key) 
next(Key key) 
isFullQ 

split(Q) 

keys©O 


创建 并 打开 一 个 页 
关闭 页 

将 键 插入 ( 外 部 的 ) 页 中 
打开 p， 向 这 个 ( 内 部 ) 页 中 插入 
并 将 p 和 p 中 的 最 小 键 相 关联 

这 是 一 个 外 部 页 吗 

键 key 在 页 中 吗 

可 能 含有 键 key 的 子 树 

页 是 否 已 经 溢出 

将 较 大 的 中 间 刍 移动 到 一 个 新 页 中 
页 中 所 有 键 的 迭代 器 


个 条 
未 


在 这 些 准备 之 后 ， 后 面 框 注 “B- 树 集合 的 实现 ”的 BTreeSET 就 很 简单 了 。 它 用 递归 实现 了 
contains() 方法， 接受 一 个 Page 对 象 作 为 参数 并 处 理 了 以 下 3 种 情况 。 


口 如 果 当 前 页 是 外 部 页 且 键 在 该 页 中 ， 返 
口 如 果 当 前 页 是 外 部 页 且 键 不 在 该 页 中 ， 返 回 false。 
口 否则 ， 递 归 地 在 可 能 含有 该 键 的 子 树 中 查找 。 


回 true。 


我 们 用 相同 的 递归 结构 实现 了 addQ 方法 ， 只 是 在 没有 找到 该 键 的 时 候 将 它 插入 到 了 树 底部 的 
页 中 ， 然 后 分 裂 回 溯 过 程 中 所 遇 到 的 所 有 饱和 结 点 ， 请 见 图 6.0.11。 


6.0.2.6 ”性 能 


B- 树 最 重要 的 性 质 就 是 ， 在 实际 应 用 中 对 于 适当 的 参数 M， 查 找 的 成 本 是 常数 级 别 的 。 


命题 B。 含 有 N 个 元 素 的 M 阶 B- 树 中 的 一 次 查找 或 插入 操作 需要 logwN ~ logwN 次 探查 一 一 


在 实际 情况 下 这 基本 是 
证 明 。 因 为 树 中 的 所 有 内 部 


结 点 


二 AN 


从 党 


个 常数 。 


( 非 根 结 点 也 非 外 部 结 点 的 所 有 结 点 ) 的 形成 都 是 由 含有 MM 个 


键 的 饱和 结 点 分 裂 得 到 的 且 大 小 只 可 能 增长 ( 当 它 的 子 结 点 分 裂 时 ) ， 所 以 其 中 的 链接 数 总 是 
在 M12 到 M-1 之 间 。 在 最 好 的 情况 下 ， 这些 结 点 


能 够 形成 一 棵 M1 向 的 完全 树 ， 由 此 马上 就 
可 以 得 到 命题 中 所 述 的 上 下 界 。 在 最 坏 情况 下 ， 根 结 点 只 含有 两 个 链接 并 分 中 


指向 两 棵 M/2 向 


的 完全 树 。 将 对 数 的 底 设 为 W 可 以 得 到 一 个 非常 小 的 数 一 一 例如 ， 当 MM 为 1000 且 N 小 于 625 


亿 时 ， 树 的 高 度 小 于 4。 


在 一 般 情 况 下 ， 我 们 可 以 将 根 结 点 保存 在 内 存 中 ， 这 样 可 以 将 探查 次 数 减 1。 在 磁盘 和 网 络 中 
进行 查找 时 ， 应 该 在 开始 大 量 查找 前 显示 地 完成 这 一 步 。 在 带 有 缓存 的 虚拟 内 存 中 ， 应 该 将 根 结 点 
放 在 最 快 的 缓存 中 ， 因 为 它 是 访问 最 频繁 的 结 点 。 
6.0.2.7 ”空间 需求 

在 实际 应 用 中 , 我 们 对 B- 树 使 用 的 空间 也 很 感 兴趣 。 由 页 的 构造 可 知 , 它们 至 少 都 是 半 满 的 。 
在 最 坏 的 情况 下 ，B- 树 所 需 的 空间 是 所 有 键 占 用 的 实际 空间 的 两 倍 再 加 上 链接 所 需 的 空间 。 对 于 随 
机 键 ，A.Yao 在 1979 年 (使 用 超出 了 本 书 范围 的 数学 方法 ) 证 明了 结 点 中 平均 含有 MIn2 个 键 ， 因 
此 浪费 的 空间 约 占 44%。 和 其 他 查找 算法 一 样 ， 这 个 随机 模型 也 很 好 地 预测 了 在 实际 应 用 中 所 观察 
到 的 键 的 分 布 。 


算法 6.1 B- 树 集合 的 实现 


public class BTreeSET<Key extends Comparable<Key>> 
{ 


private Page root = new Page(true); 


public BTreeSET(Key sentinel) 
{ add(sentinel); 了 


public boolean contains(Key key) 
{ return contains(root, key); } 


private boolean contains(Page h, Key key) 

{ 
if (h.isExternal()) return h.contains (key); 
return contains(h.next(key), key); 


. 


public void add(Key key) 
{ 
add (root, key); 
if (root.isFull()) 
{ 
Page lefthalf = root; 
Page righthalf = root.split(); 
root = new Page(false); 
root.add(lefthalf); 
root.add(righthalf); 


上 


public void add(Page h, Key key) 
{ 
if (Ch.isExternalO)) { h.add(key); return; } 


Page next = h.next(key); 

add(next, key); 

if (next.isFull(O)) 
h.add(next.splitO)); 

next.close(); 


} 


如 正文 所 述 ， 这 段 代 码 实 现 了 多 向 平衡 查找 树 (B- 树 ) 。 它 在 查找 时 使 用 了 Page 数据 类 型 来 将 键 
和 可 能 含有 该 键 的 子 树 相 关联 ， 并 通过 检测 键 的 湾 出 和 分 裂 结 点 的 方法 完成 了 搬入 操作 ， 请 见 图 6.0.11。 
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命题 B 的 影响 之 巨大 ， 值 得 我 们 思考 。 你 会 猜 到 某 种 查找 算法 只 需 4 ~ 5 次 访问 即 可 搜索 你 能 
够 想象 的 最 大 文件 吗 ? B- 树 的 应 用 十 分 广泛 ， 就 是 因为 它 能 够 实现 这 一 点 。 在 实践 


战 是 在 实现 时 


尽量 保证 B- 树 中 结 点 所 需 的 空间 ， 但 


不 算 什么 问题 了 。 


基本 B- 树 
以 节省 时 间 ， 这 样 可 以 使 分 支 增多 3 


抽象 的 廊 


F 多 变种 都 很 容易 到 


E 解 。 一 类 变化 是 尽 可 能 在 内 部 结 点 中 保存 更 多 的 页 引用 


提高 存储 的 使 用 效率 。 对 算法 的 变种 以 及 参数 的 选择 应 该 适应 于 具体 的 设备 和 应 用 。 
效率 也 仅 限于 常数 因子 的 范围 之 内 ， 但 对 于 巨型 符号 表 或 是 大 量 事物 处 理 需求 来 说 ， 
也 有 着 重要 的 意义 ， 这 也 是 为 什么 B- 树 如 此 高 效 的 原因 。 


随 着 大 部 分 设备 上 的 存储 空间 的 增 


Ph， 主要 的 挑 
首长 ， 这 已 经 


省 使 树 更 加 扁平 化 。 另 一 类 变化 是 在 分 裂 前 将 兄弟 结 点 合并 以 


尽管 提高 的 


这 样 的 改进 


6.0.11 


构造 一 棵 庞大 的 B- 树 


6.0.3 “后缀 数组 

字符 串 处 理 的 高 效 算法 在 科学 计算 和 商业 应 用 中 都 有 着 重要 的 地 位 。 从 搜索 互联 网 文本 信息 到 
科学 家 为 了 揭 开 生命 的 秘密 而 努力 研究 的 庞大 基因 数据 库 ，21 世纪 中 基于 字符 串 的 计算 机 应 用 在 大 
规模 增长 。 和 以 前 一 样 ， 许 多 经 典 的 算法 都 十 分 有 效 ， 但 人 们 也 发 明了 一 些 很 好 的 新 算法 。 下 面 ， 
我 们 将 介绍 能 够 支持 这 些 算法 的 一 种 数据 结构 和 一 份 API。 首 先 ， 我 们 来 看 一 个 典型 的 ( 而 且 是 经 
典 的 ) 字符 串 处 理 问 题 。 
6.0.3.1 最 长 重复 子 字符 串 

在 给 定 的 字符 串 中 ， 至 少 出 现 了 两 次 的 最 长 子 字 符 串 是 什么 ? 例如， 在 字符 串 "to be or 
not to be" 中 ,最 长 重复 子 字 符 串 就 是 "to be"。 你 觉得 应 该 怎样 解决 这 个 问题 呢 ? 你 能 在 长 度 
为 数 百 万 个 字符 的 字符 串 中 找 出 它 的 最 长 重复 子 字符 串 吗 ?这 个 问题 的 说 明 很 简单 ， 应 用 也 很 多 ， 
包括 数据 压缩 、 密 码 学 和 计算 机 辅助 音乐 分 析 等 。 例 如 ， 开 发 大 型 软件 系统 中 的 一 种 常见 技术 叫做 
代码 重 构 。 程 序 员 经 常会 通过 复制 粘贴 代码 从 原 有 的 程序 生成 新 的 程序 。 对 于 开发 了 很 长 时 间 的 一 
大 段 程 序 ， 将 不 断 重复 出 现 的 代码 转化 为 函数 调用 能 够 使 程序 更 加 容易 理解 和 维护 。 我 们 可 以 通过 
在 程序 中 寻找 最 长 重复 子 字 符 串 做 到 这 一 点 。 这 个 问题 的 男 一 个 应 用 是 计算 生物 学 。 在 给 定 的 基因 
中 存在 大 量 相同 的 片段 吗 ? 同样 ， 这 个 问题 背后 的 本 质 也 是 找 出 字符 串 中 的 最 长 重复 子 字符 串 。 科 
学 家 一 般 更 关心 细节 (事实 上 ， 重 复 子 字 符 串 的 意义 正 是 科学 家 所 希望 理解 的 ) ， 但 这 个 问题 显然 
比 寻 找 简 单 的 最 长 重复 子 字 符 串 更 难以 回答 。 
6.0.3.2 ”暴力 解法 

作为 热 届 ,考虑 以 下 这 个 简单 
的 任务 ， 给 定 两 个 字符 串 ， 找 到 它 private estatlenintelep St nan St not 


{ 
们 的 最 长 公共 前 组 ( 两 者 的 前 级 字 int N = Math.min(s.length(), t.length()); 
二 i or ime i =O i < Ne TH) 
符 串 中 的 相同 且 最 长 者 ) a 例如 ， Tf chnarAtD nl techanACeDD returnn 
acctgttaac 和 accgttaa 的 最 长 公 return N; 
共 前 级 是 acc。 右 边框 注 中 的 代码 是 。 “ 
我 们 解决 更 加 复杂 问题 的 起 点 : 它 所 两 个 字符 串 的 最 长 公共 前 级 


需 的 时 间 和 相 匹 配 的 子 字符 串 长 度 成 
正比 。 现 在 ， 我 们 应 该 如 何在 给 定 的 字符 串 中 找到 最 长 重复 子 字符 串 呢 ? 根据 1cpC) ， 马 上 可 以 得 
到 下 面 这 种 暴力 解法 : 将 字符 串 中 每 个 起 始 位 置 为 1 的 子 字 符 串 与 另 一 个 起 始 位 置 为 j 的 子 字 符 串 
相 比较 ， 记 录 匹 配 的 最 长 子 字符 串 。 这 段 代码 不 适合 处 理 长 字符 串 ， 因 为 它 的 运行 时 间 至 少 是 字符 
串 长 度 的 平方 级 别 : 不 同 的 子 字符 串 对 1 和 j 的 数量 为 NN-1)2， 因 此 这 种 方式 调用 1cpQ 的 次 
数 将 会 是 ~ NY/2。 用 这 种 方法 处 理 合 有 上 百 万 个 字符 的 碱 基 对 序列 将 会 调用 几 百 亿 次 1cp 〇 ， 显 然 
这 是 不 可 行 的 。 
6.0.3.3 ”后 缀 排序 

下 面 这 种 巧妙 的 方法 用 一 种 出 人 意料 的 方式 利用 排序 算法 高 效 地 找 出 了 字符 囊 中 的 最 长 重 
复 子 字符 串 : 用 Java 的 substring() 方法 创建 一 个 由 字符 串 s 的 所 有 后 级 字符 串 ( 由 字符 串 
的 所 有 位 置 开始 得 到 的 后 缀 字符 串 ) 组 成 的 数组 ， 然 后 将 该 数组 排序 ， 请 见 图 6.0.12。 算 法 的 
关键 在 于 原 字符 串 的 每 个 子 字符 串 都 是 数组 中 的 某 个 后 级 字符 串 的 前 级 。 在 排序 之 后 ， 最 长 重 
复 子 字符 串 会 出 现在 数组 中 的 相 邻 位 置 。 因 此 ， 只 需要 遍历 排序 后 的 数组 一 遍 即 可 在 相 邻 元 素 
中 找到 最 长 的 公共 前 级 。 这 种 方法 比 暴 力 方 法 有 效 得 多 。 但 在 实现 和 分 析 它 之 前 ， 我 们 先 介绍 
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后 绥 排 序 的 另 一 种 应 用 。 
6.0.3.4 定位 字符 串 

当 需 要 在 大 量 文本 中 寻找 某 个 特定 的 子 字符 串 时 (例如 ， 
当 你 在 使 用 文本 编辑 器 或 是 在 浏览 网 页 时 ) ， 你 就 是 在 进行 一 
次 子 字 符 串 查找 ， 即 5.3 节 中 讨论 过 的 问题 。 对 于 这 个 问题 ， 我 
们 假设 文本 比 要 查找 的 字符 串 庞 大 得 多 ， 并 将 注意 力 集中 在 查 
找 字 符 串 的 预 处 理 上 ， 以 保证 能 够 在 任意 给 定 的 文本 中 高 效 地 
找到 该 子 字 符 串 。 当 在 浏览 器 中 输入 要 查找 的 关键 字 时 ， 就 是 
在 进行 一 次 字符 串 键 查找 ， 即 5.2 节 的 主题 。 搜 索引 擎 必然 已 经 
预先 计算 得 到 了 一 张 索引 表 ， 因 为 它 不 可 能 即时 地 根据 输入 的 
关键 字 扫 描 互 联网 中 的 所 有 页 面 。 根据 3.5 节 的 讨论 ( 请 见 3.5.4 
节 框 注 “ 文 件 索 引 ” 的 FileIndex ) ， 理 想 情况 下 最 好 有 一 张 
反问 索引 符号 表 将 每 个 被 查找 的 字符 串 和 所 有 含有 它 的 网 页 关 
联 起 来 一 一 在 符号 表 的 每 个 条 目 中 ， 键 即 为 被 查找 的 字符 串 ， 
而 值 则 为 一 组 指针 ， 请 见 图 6.0.13 ( 每 个 指针 都 含有 能 够 定位 
该 键 在 互联 网 上 具体 位 置 所 需 的 信息 一 一 这 可 以 是 一 个 网 页 的 
URL 加 上 键 的 出 现 位 置 的 偏 移 量 。 ) 在 实际 应 用 中 ， 这 样 的 符 
号 表 会 非常 非常 大 ， 因 此 搜索 引擎 会 使 用 各 种 复杂 的 算法 来 缩 
小 它 的 体积 。 一 种 方法 是 将 网 页 按照 重要 程度 排序 ( 可 以 使 用 
3.5.5 节 讨 论 的 PageRank 算法 ) 并 只 选择 排序 等 级 较 高 的 网 页 
而 非 全 部 网 页 。 男 一 种 减 小 符号 表 大 小 的 方法 是 将 多 个 关键 词 
( 以 空格 分 隔 ) 作为 预 处 理 得 到 的 索引 表 的 键 并 和 URL 关联 。 
那么 ， 当 你 查找 一 个 关键 词 时 ， 搜 索引 擎 可 以 通过 索引 找到 含 
有 被 查找 的 键 ( 即 关 键 词 ) 的 ( 相对 重要 的 ) 网 页 ， 并 在 该 页 
面 中 使 用 字符 串 查 找 来 定位 关键 词 。 使 用 这 种 方法 时 ， 如 果 文 
本 含有 的 是 “everything” 而 你 要 找 的 是 “thing”， 那 可 能 会 
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aacaagtttacaagc< 


aacaagtttacaagc 
acaagtttacaagc 
caagtttacaagc 
aagtttacaagc 
agtttacaagc 
gtttacaagc 
tttacaagc 
ttacaagc 
tacaagc 

acaagc 


aacaagtttacaagc 


1 aagc 


aagtttacaagc 
acaagc 
acaagtttacaagc 
agc 
agtttacaagc 

C 

caagc 
caagtttacaagc 
gc 

gtttacaagc 
tacaagc 
ttacaagc 
tttacaagc 


i 


找 不 到 。 对 于 某 些 应 用 ， 构 造 一 个 能 够 帮助 我 们 找 出 文本 中 的 
任意 子 字 符 串 的 索引 是 值得 的 。 这 么 做 可 能 是 为 了 对 一 本 非常 


py 


a acaag ttt acaag C 


6.0.12 ”使 用 后 组 排序 计算 最 


长 重复 子 字符 串 


重要 的 文学 作品 进行 语言 学 人 研究， 或 是 为 了 找 出 可 能 成 为 许多 科学 家 研究 对 象 的 某 段 碱 基 对 序列 ， 
或 者 找 出 访问 量 很 大 的 网 页 。 同 样 ， 在 理想 情况 下 ， 索 引 表 应 该 将 文本 字符 串 的 所 有 子 字符 串 分 别 
和 它们 的 出 现 位 置 关联 起 来 ， 如 图 6.0.14 所 示 。 这 种 方法 的 问题 显然 是 子 字 符 串 的 总 数 太 大 ， 在 符 
号 表 中 为 每 个 子 字 符 串 创建 一 个 条 目 不 现实 。( 一 段 含有 NN 个 字符 的 文本 含有 NCN+1)/2 个 子 字符 串 。) 
图 6.0.14 中 的 符号 表 需 要 含有 b、be、bes、best、besto、bestof、e、 


st、 sto、stof、t、to、tof、0o、 


序 的 方法 解决 这 个 问题 ， 就 像 3.1 节 中 用 二 分 查找 对 符号 表 的 第 


of 和 许 许多 多 其 他 子 字 符 串 的 条 目 。 这 次 我 们 也 可 以 


estof、S、 


] 后 级 排 


es、 est、 esto、 


级 作为 键 ， 以 这 些 键 ( 后 级 ) 创建 一 个 有 序 的 数组 并 使 
所 有 后 级 ， 请 见 图 6.0.15。 


次 实现 一 样 。 我 们 可 以 将 Y 个 后 
j 二 分 查找 法 搜索 数组 ， 比 较 被 查找 的 键 和 
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在 以 字符 串 为 键 的 符号 表 中 进行 
查找 : 找 出 含有 该 键 的 网 页 
键 值 


4 
was the best 


it was the best | | be 于 


it was 
he best 键 值 


it was the 


best of times best 
it was 
it was the it was 
best 

it was 
it was it Was 

子 字符 串 查 找 : 在 

网 页 中 找到 该 键 


图 6.0.13 ”理想 化 的 一 次 典型 的 网 络 搜索 图 6.0.14 ”理想 化 的 一 张 文 本 字符 串 索 引 表 


后 级 有 序 后 缀 数组 
it was the best of times it was the best of times it was the 
t was the best of times it was the it was the 
was the best of times it was the of times it was the 
was the best of times it was the the 
4 as the best of times it was the the best of times it was the 
Ss the best of times it was the times it was the 
the best of times it was the was the 
the best of times it was the was the best of times it was the 
he best of times it was the as the select(9) 
e best of times it was the 9 4 as the best of times it was the < 一 
best of times it was the best of times it was the 
best of times it was the 2 -of e 
est of times it was the index(9) e best of times it was the 
st of times it was the es it was the 
t of times it was the est of times it was the 
of times it was the f times it was the 
of times it was the he 
f times it was the he best of times it was the 
times it was the imes it was the T 
times it was the it was the 
imes it was the 20 10 it was the best of times it was the 
mes it was the mes it was the 
es it was the of times it was the 
s.it was the s it was the 
it was the 1cp(20) s the 
it was the s the best of times it was the 
t was the st of times it was the 
was the t of times it was the 十 
was the t was the 
as the t was the best of times it was the 
s the rankC"th") 一 上 30 th e 下 
the the best of times it was the 
the times it was the 
he was the 
e was the best of times it was the 
在 二 分 查找 中 通过 rank() 


方法 找到 的 含有 “th” 的 区 间 


图 6.0.15 ”后缀 数组 中 的 二 分 查找 0 


6.0.3.5 ” API 及 其 用 例 

为 了 解决 这 两 个 问题 ， 我 们 给 出 了 以 下 API。 它 含有 构造 函数 、1ength() 方法 ，select() 和 
indexQ 方法 分 别 给 出 了 有 序 后 级 数组 中 给 定位 置 的 后 级 和 它 的 索引 值 ，1cpQ 〇 方法 会 返回 每 个 后 
级 和 它 在 数组 中 的 前 一 个 后 缀 的 最 长 公共 前 级 ，rankQ 方法 能 够 给 出 小 于 给 定 键 的 后 级 数量 。 ( 自 
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从 第 1 章 中 第 一 次 学 习 二 分 查找 后 就 一 直 在 使 用 它 。 ) 我 们 用 后 组 数组 表示 有 序 后 级 字符 串 列 表 的 


这 种 抽象 数据 结构 ， 但 实际 使 用 的 3 


public class SuffixArray 


ff 不 一 定 是 字符 串 数 组 ， 如 表 6.0.3 所 示 。 


表 6.0.3 后 缀 数组 的 API 


SuffixArray(String text) 为 文本 text 构造 后 级 数组 


int length(O) 
String select(int 1) 
int indexCint 1) 


int 1cpCint 1) 


int rank(String key) 


在 图 6.0.15 所 示 的 例子 中 
select(9) 的 结果 是 “as the 
best of times...” 、index(9) 
的 值 是 4、1cp(C20) 的 值 是 10 

(因为 “it was the best of 
times...” 和 “it was the” 
的 公共 前 级 “it was the” 的 长 
度 为 10) 、rank("“th”) 的 值 是 
30。 注意 ，select(rank(key)) 
是 有 序 后 绥 数 组 中 第 一 个 以 key 
为 前 缀 的 后 缀 字符 串 ， 键 key 
在 正文 中 出 现 的 其 他 位 置 都 在 
后 级 数组 中 紧 跟着 该 条 上 日 (请 
见 图 6.0.15) 。 使 用 这 份 API 
可 以 立即 写 出 框 注 中 的 代码 。 
LRS 类 〈 见 本 页 框 注 ) 会 为 标 
准 输入 得 到 的 文本 构造 后 级 数 
组 ， 并 根据 扫描 数组 所 得 的 最 
大 1cpQ 值 找 出 文本 中 的 最 长 
重复 子 字 符 串 。KWIC 类 〈 见 下 


页 框 注 ) 会 为 命令 行 参数 指定 
的 文本 构造 后 缀 数组 ， 从 标准 
输入 接受 查询 并 打印 出 被 查询 


文本 text 的 长 度 
后 级 数组 中 的 第 i 个 元 素 (i 在 0 到 NN-1 之 间 ) 
select(i) 的 索引 (1 在 0 到 NI 之 间 ) 


select(i) 和 select(i-1) 的 最 长 公共 前 缀 的 长 度 (i 在 1 
到 N-1 之 间 ) 


小 于 键 key 的 后 级 数量 


public class LRS 
{ 
public static void main(String[] args) 
{ 
String text = StdIn.readAl110) ; 
int N = text.lengthQO; 
SuffixArray sa = new SuffixArray(text); 
String 1rs 
Roe Cone a 
于 
int length = sa.1lcp(i); 
if (length > lrs.lengthO) 
lrs = sa.select(i).substring(0, length); 


1; i < N; i++) 


} 
stdoue pm so 


最 长 重复 子 字符 串 算法 的 用 例 


% more tinyTale.txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 
it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


% java LRS < tinyTale.txt 
st of times it was the 


的 子 字符 串 在 文本 中 的 上 下 文 〈 该 字符 串 的 前 后 若干 个 字符 ) 。KWIC 这 个 名 字 表 示 的 是 上 下 文中 


的 关键 词 (keyword-in-context ) 查找 ， 最 早出 现在 20 世纪 60 年 代 。 这 些 典型 的 字符 串 处 理应 用 
代码 的 简洁 和 高 效 令 人 赞叹 。 这 也 说 明了 精心 设计 API 的 重要 性 ( 以 及 简单 而 巧妙 的 思想 的 影响 


力 ) 。 


public class KWIC 
岂 
public static void main(String[] args) 
{ 
In in = new In(args[0]); 
int context = Integer.parseInt(args[1]); 


String text = in.readA11(0) .replaceAll("\\s+", " ");; 
neaNe = texealengthOs 
SuffixArray sa = new SuffixArray(text); 


while (StdIn.hasNextLine()) 


1 
String q = StdIn.readLineQ); 
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for (int 1 = sa.rank(q); i < Ne&& sa.select(i).startsWith(q); i++) 


1 


int from Math.max(0, sa.index(i) - context); 


in e eo) = Math.min(N-1, from + q.length() + 2*context); 


StdOut.println(text.substring(from, to0)); 


} 
StdOut.print1nQO; 


上 下 文中 的 关键 词 的 索引 用 例 


% java KWIC tale.txt 15 

search 

oO st giless to search for contraband 
her unavailing search for your fathe 
le and gone in search of her husband 
t provinces in search of impoverishe 
dispersing in search of other carri 
n that bed and search the straw hold 


better thing 

t is a far far better thing that i do than 
some sense of better things else forgotte 

was capable of better things mr carton ent 


6.0.3.6 ”实现 


算法 6.2 中 的 代码 简洁 明了 地 实现 了 SuffixArray 的 API。 它 的 实例 变量 包括 一 个 字符 串 数 
组 和 (为 了 节省 代码 ) 一 个 表示 数组 长 度 的 的 变量 NN ( 既是 字符 串 的 长 度 也 是 它 的 后 缀 字符 串 数 


| 


hm 


量 ) 。 类 的 构造 函数 会 构造 后 级 数组 并 将 它 排 序 ， 因 此 select(i) 只 需 返 回 suffixes[i] 即 可 。 


indexQ 的 实现 也 只 要 一 行 代码 ， 但 稍微 复杂 一 点 ， 因 为 后 组 字符 串 的 长 度 就 说 明了 它 的 起 始 位 
置 。 长 度 为 N 的 后 级 字符 串 的 起 始 位 置 为 0， 长 度 为 N-1 的 后 级 字符 串 的 起 始 位 置 为 1， 长 度 为 
N-2 的 后 级 字符 串 的 起 始 位 置 为 2， 依 此 类 推 。 因 此 index(i) 的 返回 值 即 为 N-suffixes[i]. 
length()。 由 6.0.3.2 节 中 的 静态 1cpQ 〇 方法 可 以 很 容易 得 到 这 里 的 1cpQ 〇 方法 的 实现 ，rankO) 
方法 与 3.1.5 节 “ 算 法 3.2 ( 续 1) ”中 基于 二 分 查找 的 符号 表 的 实现 也 基本 相同 。 同 样 ， 实 现 的 简 


洁 与 优雅 并 不 能 掩盖 这 是 一 种 复杂 的 算法 ， 它 解决 了 如 最 长 重复 子 字符 中 
重要 问题 。 


这 种 其 他 方法 无 法 解决 的 
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6.0.3.7 ”性 能 


后 级 排序 算法 的 效率 取决 于 Java 的 子 字 符 串 提取 操作 使 用 的 内 存 空间 ， 它 是 一 个 常数 一 一 每 


个 子 字符 捉 都 是 由 标准 对 象 、 指 向 原 字符 串 的 指针 和 它 的 长 度 组 成 的 。 因 此 ， 索 
的 长 度 是 线性 关系 。 这 让 人 有 些 意外 ， 因 为 所 有 子 字符 串 中 的 字符 总 数 为 ~ N/2 
平方 级 别 。 另 外 ， 这 种 平方 级 别 的 性 能 也 会 大 大 影响 子 字符 串 数组 的 排序 成 本 。 


引 的 大 小 和 字符 串 
， 即 字符 串 长 度 的 
我 们 要 记 住 的 重要 


一 点 是 ， 这 种 方法 对 长 字符 串 有 效 的 原因 在 于 Java 的 字符 串 表 示 方 法 : 当 交换 两 个 字符 串 时 ， 实 际 


交换 的 仅仅 是 对 它们 的 引用 ， 而 非 字符 串 本 身 。 昌 然 当 两 个 字符 电 有 很 长 的 公共 
成 本 与 它们 的 长 度 成 正比 ， 但 在 一 般 的 应 用 场景 下 ， 大 多 数 比较 都 只 需要 检查 几 


前 缀 时 比较 它们 的 
个 字符 。 如 果 是 这 


样 的 话 ， 后 缀 数组 的 排序 时 间 就 是 线性 对 数 的 。 例 如 ， 在 许多 应 用 中 ， 随 机 字符 串 模 型 都 是 合理 的 。 


命题 C。 使 用 三 向 字符 串 快 速 排序 ， 构 造 长 度 为 W 的 随机 字符 串 的 后 组 数组 ， 
与 N 成 正比 ， 字 符 比 较 次 数 与 ~ 2NInN 成 正比 。 


讨论 。 后 绥 数 组 的 空间 需求 很 明显 ， 但 它 所 需 的 时 间 来 自 于 了 Jaquet 和 W.Szpankowski 的 一 份 


艰深 而 复杂 的 研究 成 果 。 他 们 证 明了 将 所 有 后 绥 排 序 的 成 本 渐进 于 将 Y 个 随机 
本 (请 见 5.1.4.4 节 中 的 命题 已 ) 。 


算法 6.2 ”后缀 数组 初级 实现 ) 


平均 所 需 的 空间 


字符 串 排序 的 成 


public class SuffixArray 
{ 
private final String[] suffixes; // 后 级 数组 
private final int N; // 字符 囊 ( 和 数组 ) 的 长 度 


public SuffixArray(String s) 
{ 
N = s.lengthQO; 
suffixes = new String[N]; 
for (Cint 1 = 0; i < Ni i++) 
suffixes[i] = s.substring(i); 
Quick3way.sort(suffixes); 


} 

public int length() { return N; } 

public String select(int i) { return suffixes[i]; } 

public int indexCint i) { return N - suffixes[i].length(O); } 


private static int lcp(string s,string t) 
// 请 见 6.0.3.2 节 框 注 “ 两 个 字符 串 的 最 长 公共 前 缓 ” 


public int lcpCint 1) 
{ return lcp(Csuffixes[i], suffixes[i-1]); } 
public int rank(String key) 
{ // 二 分 查找 
int lo=0, hi =N-1; 
while (lo <= hi) 
{ 
int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(suffixes[mid]); 
i 不 (cmp < 0) hi = mid - 1; 
else if (cmp > 0) lo = mid + 1; 
else return mid; 


} 
return 1o; 


} 
} 


SuffixArray API 的 实现 效率 取决 于 Java 的 String 类 的 不 可 改变 性 ， 这 种 性 质 使 得 子 字 符 串 实际 上 都 


是 引用 ,提取 子 字符 串 只 需 常数 时 间 (请 见 正文 ) 。 


6.0.3.8 改进 的 实现 

SuffixArray 的 初级 实现 在 最 坏 情 况 下 
的 性 能 很 糟 。 例 如 ， 如 果 所 有 的 字符 都 相同 ， 
后 缀 数组 的 排序 会 检查 每 个 后 缀 字符 串 中 的 每 
个 字符 ， 所 需 的 时 间 为 平方 级 别 。 对 于 我 们 用 
作 示 例 的 碱 基 对 序列 字符 串 或 是 自然 语言 的 文 
本 字符 串 ， 这 可 能 不 是 问题 ， 但 算法 对 于 含有 
一 大 串 相同 字符 的 文本 可 能 会 很 慢 。 此 外 ， 碍 
找 最 长 重复 子 字符 串 所 需 的 时 间 可 能 会 是 子 字 
符 串 长 度 的 平方 级 别 ， 因 为 重复 的 子 字符 串 的 
所 有 前 绥 都 会 被 检查 ( 请 见 图 6.0.16 )。 对 于 《 双 
城 记 》 来 说 这 不 是 问题 ， 因 为 其 中 最 长 的 重复 
子 字符 串 为 : 

"s dropped because it would have 


been a bad thing for me in a 
worldly point of view 1" 
hz Nt 


只 有 84 个 字符 。 然 而 ， 对 于 经 常 含有 
很 长 的 重复 部 分 的 碱 基 对 序列 来 说 ， 这 就 是 
一 个 严重 的 问题 了 。 如 何 避 人 免 查找 重复 子 字 
时 出 现 的 这 种 平方 级 别 运 算 呢 ?幸运 的 


一 
ES 
Tn 


输入 字符 串 
a acaag 


ttt acaag Cc 


最 长 重复 子 字符 串 的 所 有 后 缀 字符 串 (M=5) 


acaag 
caag 
aag 
ag 

g 


有 序 的 后 级 字 


它们 都 作为 基 个 
环 一 后 级 字符 串 的 前 
组 至 少 出 现 过 两 次 


字符 


aacaagtttacaagc 


aag Cc 


WwW 


5 acaag 
acaag 
agc 


~ 


gc 


请 上 


aag tttacaagc 


E 
tttacaagc 


ag tttacaagc 
G 


Caag Cc 
caag tttacaagc 


g tttacaagc 
tacaagc 
ttacaagc 
tttacaagc 


比较 成 本 至 少 为 
1+2+*…+M~M /2 


医 


6.0.16 查找 最 长 重复 子 字符 串 的 成 本 是 重复 子 


字符 串 长 度 的 平方 级 别 


是 ，P.Weiner 在 1973 年 的 研究 显示 我 们 可 以 保证 在 线性 时 间 内 解决 最 长 重复 子 字 符 串 问题 。Weiner 


算法 的 基础 是 构造 一 棵 后 绥 字 符 串 树 〈 即 一 哥 


日 所 有 后 绥 字 符 串 组 成 的 字典 查找 树 ) 。 如 果 在 每 个 


字符 处 使 用 多 个 链接 ， 后 级 树 在 解决 许多 实际 问题 时 会 消耗 非常 大 的 空间 ， 这 又 推动 了 后 缀 数组 的 
发 展 。 在 20 世纪 90 年 代 ，U.Manber 和 E.Myers 演示 了 一 种 构造 后 级 数组 的 线性 对 数 级 别 的 算法 ， 
以 及 一 个 同时 完成 预 处 理 和 对 后 级 数组 排序 以 支持 常数 时 间 的 1cpQ 〇 方法 。 之 后 人 们 又 发 明了 若干 
线性 时 间 的 后 级 排 序 算法 。 经 过 一 些 改造 ，Manber-Myers 算法 的 实现 也 能 够 支持 两 个 参数 的 1cpO) 
方法 ， 以 在 常数 时 间 内 找 出 给 定 的 但 不 一 定 是 相 邻 的 两 个 后 级 之 间 的 最 长 公共 前 级 。 这 也 是 对 初级 
实现 的 一 项 重大 改进 。 这 些 结果 非常 令 人 惊讶 ， 因 为 它们 所 达到 的 效率 远 远 超出 了 人 们 的 预期 。 


命题 D。 使 用 后 绥 数 组 ， 我 们 可 以 在 线性 时 间 内 解决 后 组 排序 和 最 长 重复 子 字符 


串 问题 。 


证 明 。 解 决 这 些 问 题 的 优美 算法 已 经 超出 了 本 书 的 范畴 ， 但 你 在 本 了 
间 的 SuffixArray 的 构造 函数 和 常数 时 间 的 1cpQ 方法 的 实现 。 


的 网 站 上 可 以 找到 线性 时 


579 


883 


884 


580 > 第 6 章 背 景 


基于 这 些 思想 的 SuffixArray 实现 足以 高 效 解 决 许多 字符 串 处 理 问题 ， 


而 且 用 例 代码 非常 简 


单 ， 如 我 们 的 LRS 和 KWIC 例子 所 示 。 


后 级 数组 是 自 20 世纪 60 多 


FE 代 解 决 KWIC 索引 的 单词 查找 树 以 来 数 十 年 研究 积累 的 成 果 。 我 们 


讨论 的 很 多 种 算法 都 是 许多 研究 者 在 儿 十 年 的 实践 中 发 明 的 ， 这 些 问 题 包 括 将 《牛津 英语 大 词典 》 
搬 上 互联 网 、 第 一 代 搜 索引 擎 以 及 人 类 基因 组 测序 , 等 等 .这 完全 说 明了 算法 的 设计 和 分 析 的 重要 性 。 


为 0 一 1 一 3 一 5 
分 配 2 个 单位 


的 流量 


IH 口 -有 


[| 
为 0 一 2 一 4 一 5 分 配 
1 个 单位 的 流量 


将 1 个 单位 的 流量 
从 1 一 3 一 5 重新 
分 配 至 1 一 4 一 5 


5 


为 0 一 2 一 3 一 5 分 配 
1 个 单位 的 流量 
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图 6.0.17 


\ 
2 
NS 


4 


6.0.4 网 络 流 算法 

下 面 我 们 将 讨论 一 种 图 的 模型 ， 它 的 成 功 之 处 不 仅 在 于 为 
我 们 提供 了 能 够 轻松 描述 解决 实际 问题 的 模型 ， 而 且 使 用 这 些 
模型 我 们 能 得 到 许多 高 效 的 算法 来 解决 问题 。 我 们 将 要 讨论 的 
解决 方案 说 明了 两 种 特定 需求 之 间 的 矛盾 ， 即 具有 广泛 适用 性 
的 需求 与 能 够 解决 特殊 问题 的 需求 。 网 络 流 算法 研究 的 迷人 之 
处 在 于 它 紧 凑 优 雅 的 实现 几乎 能 够 同时 达到 这 两 个 目标 。 你 将 
会 看 到 ， 我 们 的 实现 非常 易 懂 而 且 能 够 保证 运行 时 间 与 网 络 大 
小 成 正比 。 

网 络 流 问题 的 经 典 解 决 方案 和 第 4 章 中 介绍 的 那些 图 算法 
紧密 相关 。 基 于 已 有 的 工具 ， 我 们 可 以 编写 非常 精炼 的 程序 来 
解决 它们 。 我 们 已 经 在 许多 问题 中 看 到 ， 良 好 的 算法 和 数据 结 
构 能 够 大 幅 减 少 解决 问题 所 需 的 时 间 。 人 们 还 在 积极 研究 该 领 
域 中 更 好 的 算法 和 数据 结构 并 不 断 地 发 明 新 的 方法 。 
6.0.4.1 物理 模型 

首先 用 一 个 理想 化 的 物理 模型 来 介绍 几 个 直观 的 概念 。 请 
想象 一 组 相互 连接 大 小 不 一 的 输油管 道 ， 在 连接 处 装 有 能 够 探 
制 原油 流向 的 开关 ， 如 图 6.0.17 所 示 。 

我 们 还 假设 这 个 输 油 网 只 有 一 个 入 口 ( 比如 一 处 油田 ) 和 
一 个 出 口 〈 比如 一 个 大 型 的 炼油 厂 ) ， 所 有 的 输油管 最 终 都 会 
和 它们 相连 。 在 每 个 结 点 人 处， 原油 流入 量 和 流出 量 都 会 达到 的 
平衡 。 我 们 用 相同 的 单位 衡量 流量 和 管道 的 输送 能 力 ( 例如 ， 
加 仓 每 秒 ) 。 如 果 在 每 个 开关 处 都 有 流入 管道 的 总 流量 和 流出 
管道 的 总 流量 相等 ， 那 么 问题 就 不 存在 了 : 只 需要 将 所 有 输 油 
管 充满 即 可 。 和 否则 ， 虽 然 并 不 是 所 有 管道 都 是 饱和 的 ， 但 原 ; 
仍然 会 根据 各 个 关节 处 的 开关 设置 在 网 络 中 流动 ， 并 将 在 关节 
处 满足 一 个 局 部 平衡 条 件 : 流入 结 点 的 流量 等 于 流出 结 点 的 流 
量 , 请 见 图 6.0.18。 


在 每 个 结 点 处 入 流 


量 都 和 出 流量 相等 NY 
(入 口 和 出 口 除外 ) 


为 输 油 网 络 分 配 流 量 


图 6.0.18 


流量 网 络 中 的 局 部 平衡 


例如 ， 如 图 6.0.17 所 示 ， 一 开始 操作 员 可 能 会 将 原油 的 路 径 设 为 0 一 1 一 3 一 5， 这 条 路 线 能 


够 输送 2 个 单位 的 流量 , 然后 再 打开 0 一 2 一 4 一 5 这 条 路 径 上 的 开关 , 又 可 以 输送 1 个 单 


位 的 流量 。 


因为 0 一 1、2 一 4 和 3 一 5 都 已 经 饱和 ， 已 经 无 法 直接 将 更 多 的 原油 从 0 输送 到 5。 但 如 果 调 整 1 
处 的 开关 将 1 一 4 充满， 那么 就 又 可 以 在 3 一 5 空 出 足够 的 空间 使 得 0 一 2 一 3 一 5 可 以 再 增加 1 


个 单位 的 流量 。 即 使 是 这 样 一 个 简单 的 网 络 ， 找 到 能 够 使 得 流量 最 大 化 的 开关 配置 也 并 不 容易 ; 而 
对 于 更 加 复杂 的 网 络 ， 我 们 感 兴趣 的 显然 是 下 面 这 个 问题 : 怎样 配置 所 有 开关 才能 使 从 入 口 到 出 口 
的 流量 最 大 化 ?我 们 可 以 直接 用 只 含有 一 个 起 点 和 一 个 终点 的 加 权 有 向 图 构造 出 这 个 问题 的 模型 。 
图 中 的 边 对 应 的 是 输油管 道 ， 顶 点 对 应 的 是 配 有 能 够 控制 原油 走向 和 流量 的 开关 结 点 ， 边 的 权重 对 


应 的 是 管道 的 容量 ， 请 见 图 6.0.19。 我 们 假设 边 是 有 向 的 ， 即 原油 在 每 个 管道 中 都 只 能 朝 着 一 个 方 
向 流动 。 每 条 管道 中 都 流动 着 一 定量 的 原油 ， 流 量 小 于 等 于 管道 的 容量 ， 而 每 个 顶点 都 需要 满足 流 


入 量 和 流出 量 相等 。 这 种 抽象 的 流量 网 络 是 一 个 能 够 解决 问题 的 实用 模型 ， 它 能 够 直接 应 用 于 许多 
场景 ， 而 间接 适用 的 则 更 多 。 我 们 有 时 会 用 原油 流 过 管道 的 方式 直观 地 说 明 一 些 基本 的 概念 ， 但 这 


里 的 讨论 同样 适用 于 物流 分 配 的 通道 等 情况 。 鉴 于 我 们 在 各 种 最 短路 径 算法 中 对 “距离 ” 概 


念 的 用 法 ， 


在 必要 的 时 候 会 抛弃 图 的 所 有 物理 意义 ， 因 为 我 们 讨论 的 所 有 定义 、 性 质 和 算法 所 基于 的 抽象 模型 
并 不 一 定 遵守 物理 定律 。 事 实 上 ， 人 们 对 网 络 流 问题 的 主要 兴趣 在 于 许多 其 他 问题 都 能 转化 为 这 个 


模型 ， 下 一 个 小 节 中 将 会 详 述 。 


tinyFN. txt 标准 图 容量 图 流量 图 流量 的 表示 
Ve on 01 2.0 2.0 
6 E 02 3.0 1.0 
6 13 3.0 2.0 
14 1.0 0.0 
02 3.0 2 23 1.0 0.0 
13 3.0 24 1.0 1.0 
14 1.0 35 2.0 2.0 
23 1.0 4 45 3.0 1.0 
24 1.0 
35 2.0 人 
45 3.0 每 条 边 所 
关联 的 流量 


G 


说 
部 


图 6.0.19 “网络 流 问题 详解 


6.0.4.2 定义 
因为 它 广泛 的 应 用 性 ， 我 们 需要 用 精确 的 语言 说 明 刚 才 介 绍 的 通俗 的 概念 和 术语 。 


定义 。 一 个 流量 网 络 是 一 张 边 的 权重 ( 这 里 称 为 容量 ) 为 正 的 加 权 有 向 图 。 一 个 st- 流量 网 络 有 


两 个 已 知 的 顶点 ， 即 起 点 s 和 终点 t。 


有 时 我 们 会 认为 某 些 边 的 容量 是 无 限 的 ,或 者 说 是 没有 容量 限制 的 。 这 表示 不 会 将 其 中 的 流量 
和 它 的 容量 进行 比较 ,或 者 它 的 容量 必然 比 所 有 流量 都 大 。 我 们 将 流向 一 个 顶点 的 总 流量 ( 所 有 指 


向 该 顶点 的 边 中 的 流量 之 和 ) 称 为 该 顶点 的 流入 量 ， 流 出 一 个 顶点 的 总 流量 〈 由 该 项 点 指出 的 所 有 


边 中 的 流量 之 和 ) 称 为 该 顶点 的 流出 量 , 而 两 者 之 差 ( 流入 量 减 去 流出 量 ) 则 为 称 为 该 顶点 
为 了 简化 讨论 ， 我 们 假设 没有 从 七 指 出 的 边 或 是 指向 s 的 边 。 


的 净 流 量 。 


定义 。st- 流量 网 络 中 的 st- 流量 配置 是 由 一 组 和 每 条 边 相 关联 的 值 组 成 的 集合 ， 这 个 值 被 称 为 
边 的 流量 。 如 果 所 有 边 的 流量 均 小 于 边 的 容量 且 满 足 每 个 顶点 的 局 部 平衡 ( 即 净 流 量 均 为 零 ， 
s 和 七 除外 ) ,那么 就 称 这 种 流量 配置 方案 是 可 行 的 。 


我 们 将 终点 的 流入 量 称 为 st- 流量 的 值 。 命 题 E 将 会 证 明 这 个 值 和 起 点 的 流出 量 是 相等 的 。 有 
了 这 些 定义 ， 就 能 够 正式 地 描述 这 个 基本 问题 了 。 

最 大 st- 流量 。 给 定 一 个 st- 流量 网 络 ， 找 到 一 种 st- 流量 配置 ， 使 得 从 s 到 的 流量 最 大 化 。 

为 了 简洁 ， 我 们 将 这 样 的 流量 配置 称 为 最 大 流量 ， 那 么 在 网 络 中 寻找 这 种 配置 的 问题 就 是 一 个 


887| 最 大 流量 问题 。 在 某 些 应 用 中 ， 只 需要 知道 最 大 流量 的 值 即 可 ， 但 一 般 情 况 下 人 们 还 是 希望 知道 达 
到 该 值 的 具体 流量 配置 《各 条 边 的 流量 值 ) 。 


Co 
Co 
OO 


private boolean localEq(FlowNetwork G, int v) 
{ // 检查 顶点 V 的 局 部 平衡 
double EPSILON FE lb 
double netflow = 0.0; 
for (FlowEdge e : G.adj(v)) 
if (v == e.from()) netflow -= e.flow(); 
else netflow += e.flowO); 


return Math.abs(netflow) < EPSILON; 
} 


private boolean isFeasible(FlowNetwork GC) 
// 确认 每 条 边 的 流量 非 负 上 且 不 大 于 边 的 容量 
for Gint v = 0; Vv < G.VO® v++) 
for (FlowEdge e : G.adj(v)) 
if (e.flow() < 0 || e.flow() > e.capacity()) 
return false; 


// 检查 顶点 Vv 的 局 部 平衡 
for (int v= 0; VvV < G.:VO® Vvi+) 
if (v l=s && Vv != t && !localEq(v)) 
return false; 


me tnuey 


} 


检查 流量 网 络 中 的 一 种 流量 配置 是 否 可 行 


6.0.4.3 API 

表 6.0.4 和 表 6.0.5 所 示 的 FlowEdge 和 FlowNetwork 简单 扩展 了 第 4 章 中 相应 API。 我 们 将 会 
在 6.0.4.6 节 学 习 FlowEdge 的 一 种 实现 ， 它 的 基础 是 4.3.2 节 中 的 Edge 类 并 添加 了 一 个 实例 变量 3 
保存 边 的 流量 。 流 量 是 有 方向 的 ， 但 FlowEdge 并 不 是 基于 Di rectedEdge， 因 为 它 还 需要 解决 下 面 
将 要 描述 的 一 个 更 加 抽象 的 剩余 网 络 问题 。 我 们 需要 使 每 条 边 都 出 现在 它 的 两 个 顶点 的 邻接 表 中 才 
能 实现 剩余 网 络 。 剩 余 网 络 能 够 增 减 流量 并 检测 一 条 边 是 否 已 经 饱和 ( 无 法 再 增 大 流量 ) 或 者 是 否 
为 空 (无 法 再 减 小 流量 ) 。 这 些 抽象 是 通过 residualCapacity() 和 addResidualFlow() 方法 实 
现 的 ， 我 们 将 在 之 后 讨论 它们 。F1owNetwork 的 实现 与 4.3.2 节 中 EdgeWeightedGraph 的 实现 基本 
相同 ， 因 此 这 里 将 它 省 略 。 为 了 简化 文件 格式 ， 我 们 约定 起 点 的 编号 为 0, 终点 的 编号 为 V1， 请 
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地 


见 图 6.0.20。 有 了 这 些 API 之 后 最 大 流量 算法 的 目标 就 很 明确 了 : 构造 一 个 网 络 ， 计 算 所 有 边 中 保 
存 流 量 的 实例 变量 的 值 并 使 得 网 络 中 的 流量 最 大 化 。 上 一 页 框 注 所 示 的 是 检验 一 个 流量 配置 方案 是 


否 可 行 的 用 例 代码 ， 一 般 会 将 这 种 检查 作为 最 大 流量 算法 的 最 后 一 步 。 889 


表 6.0.4 流量 网 络 中 的 边 的 API 


public class FlowEdge 


FlowEdge(int v, int w, double cap) 


int from() 这 条 边 的 起 始 顶点 

int toO) 这 条 边 的 目的 顶点 

int other(int v) 边 的 男 一 个 顶点 
double capacity() 边 的 容量 
double flow() 边 中 的 流量 
double residualCapacityTo(int v) v 的 剩余 容量 
double addResidualFlowTo(int v, double delta) 将 v 的 流量 增加 de1ta 
String toString() 对 象 的 字符 串 表示 


表 6.0.5 ”流量 网 络 的 API 


public class FlowNetwork 


FlowNetwork(Cint V) 创建 一 个 含有 V 个 顶点 的 空 网 络 
FlowNetwork(In in) 从 输入 流 中 构造 流量 网 络 
int VO 顶点 总 数 
int EQ 边 的 总 数 
void addEdge(FlowEdge e) 向 流量 网 络 中 添加 边 e 
Iterable<FlowEdge> adj(int v) 从 v 指出 的 边 
Iterable<FlowEdge> edges() 流量 网 络 中 的 所 有 边 
String toString() 对 象 的 字符 串 表 示 
tinyFN. txt 指向 相同 FlowEdge 
0o12 13.0[1.0 一 0|1|2.0|12.0 | 一 对 象 的 引 ) 
~ s | 
6 a 
8 0 11411.010.0 FF 11313.0|2.0 上 Foi1|12.0 
0 -一 
2|1411.011.0 上 -| 2 1.0|0.0 上 > 0|1213.0 
hy 0 ol E 2 
二 工人 沪 
23 10 ,| Yals|2.0|2.0|e[213lolooh [ilalao 
2 4 1.0 LS 
35 2.0 3 £0 
45 3,0 
图 6.0.20 ”流量 网 络 的 表示 290 
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从 0 到 5 的 所 有 路 
径 中 都 含有 一 条 
饱和 的 边 


为 路 径 0 一 2 一 3 增 
加 1 个 单位 的 流量 


失去 平衡 一 


从 路 径 1 一 3 减少 
1 个 单位 的 流量 
(遍历 是 的 方向 
为 3 一 工 ) 


失去 平衡 一 


为 路 径 14 一 5 增 
加 1 个 单位 的 流量 


图 6.0.21 一 条 增 广 路 径 (0 


1 一 4 一 9) 


6.0.4.4 ”Ford-Fulkerson 算法 

在 1962 年 ，L.R.Ford 和 D.R.Fulkerson 发 明了 一 种 解决 最 大 流 
量 问题 的 有 效 方法 。 它 是 一 种 沿 着 由 起 点 到 终点 的 路 径 逐 步 增加 流 
量 的 通用 方法 ， 因 此 它 也 是 同类 算法 的 基础 。 在 经 典 文献 中 它 被 称 
为 Ford-Fulkerson 算法 ， 但 它 也 被 称 为 增 广 路 径 算法 。 考 虑 一 个 st- 
流量 网 络 中 的 任意 一 条 从 起 点 到 终点 的 有 向 路 径 。 假 设 * 为 该 路 径 
上 的 所 有 边 中 未 使 用 容量 的 最 小 值 。 那 么 只 需 将 所 有 边 的 流量 增 大 x 
即 可 将 网 络 中 的 总 流量 至 少 增 大 x。 反 复 这 个 过 程 ， 就 得 到 了 第 一 种 
计算 网 络 中 的 流量 分 配方 法 : 找到 另 一 条 路 径 , 增 大 路 径 中 的 流量 ， 
如 此 反复 , 直到 所 有 从 起 点 到 终点 的 路 径 上 至 少 有 一 条 边 是 饱和 的 。 
(这 样 在 这 条 路 径 上 就 无 法 继续 增 大 流量 了 。 ) 这 种 方法 在 某 些 情 
况 下 能 够 计算 出 网 络 中 的 最 大 流量 ， 但 在 有 些 情况 下 不 行 ， 图 6.0.17 
就 是 这 类 情况 。 为 了 改进 算法 使 之 总 是 能 够 找到 最 大 流量 ， 就 要 用 
另 一 种 更 加 通用 的 方式 增 大 网 络 中 的 流量 ， 即 将 依据 变 为 网 络 所 对 
应 的 无 向 图 中 从 起 点 到 终点 的 路 径 。 在 这 样 的 路 径 中 ， 当 沿 着 路 径 
从 起 点 向 终点 前 进 时 , 经 过 某 条 边 时 的 方向 可 能 和 流量 的 方向 相同 ， 
那 这 条 边 即 为 正 向 边 ; 也 可 能 和 流量 的 方向 相反 ， 那 这 条 边 即 为 逆 
向 边 。 现 在 ， 对 于 任意 非 饱和 正 向 边 和 非 空 逆向 边 ， 我 们 可 以 通过 
增加 正 向 边 的 流量 和 降低 逆向 边 的 流量 来 增加 网 络 中 的 总 流量 。 流 
量 的 增 量 受 路 径 上 的 所 有 正 向 边 的 未 使 用 容量 最 小 值 和 所 有 逆向 边 
的 流量 的 限制 。 这 样 的 一 条 路 径 被 称 为 增 广 路 径 ， 比 如 图 6.0.21。 
在 新 的 流量 配置 中 ， 路 径 中 至 少 有 一 条 正 向 边 达 到 了 饱和 ， 或 是 至 
少 有 一 条 道 向 边 为 空 。 以 上 所 述 的 过 程 就 是 经 典 的 Ford-Fulkerson 算 
法 〈 增 广 路 径 算法 ) 的 基础 。 我 们 将 它 总 结 如 下 。 


Ford-Fulkerson 最 大 流量 算法 。 网 络 中 的 初始 流量 为 零 ， 沿 着 
任意 从 起 点 到 终点 (上 且 不 含有 饱和 的 正 向 边 或 是 空 道 向 边 ) 的 
增 广 路 径 增 大 流量 ， 直 到 网 络 中 不 存在 这 样 的 路 径 为 止 。 


令 人 惊讶 的 是 (在 关于 流量 性 质 的 一 定 技术 性 限制 之 下 ) ， 无 论 
我 们 如 何 选择 路 径 ， 该 方法 总 能 找 出 最 大 流量 。 如 同 4.3 节 中 讨论 的 贪 
心 最 小 生成 树 算法 和 4.4 节 中 讨论 的 通用 最 短路 径 算法 一 样 ， 它 的 意义 
在 于 证 明了 所 有 同类 算法 的 正确 性 。 我 们 可 以 用 任何 方法 选择 路 径 。 
人 们 发 明了 多 种 算法 来 计算 增 广 路 径 的 序列 ， 以 计算 最 大 流量 。 这 些 
算法 的 不 同 之 处 在 于 它们 得 到 的 增 广 路 径 数量 和 得 到 每 条 路 径 的 成 本 ， 
但 它们 实现 的 都 是 Ford-Fulkerson 算法 并 能 够 找到 网 络 的 最 大 流量 。 


6.0.4.5 “最 大 流 - 最 小 切 分 "定理 


为 了 证 明 Ford-Fulkerson 算法 的 任意 实现 所 计算 得 到 的 流量 确实 是 最 大 流量 ， 


人 也 有 时 译 为 “最 大 流 -最 小 制 ”。 一 一 编者 注 


需要 证 明 一 个 


叫做 最 大 流 - 最 小 切 分 的 关键 定理 。 理 解 这 个 定理 是 理解 所 有 网 络 流 算 法 中 最 重要 的 一 步 。 顾 名 
思 义 , 定理 的 基础 是 网 络 中 的 流量 和 切 分 的 关系 , 因此 需要 先 定义 和 切 分 有 关 的 名 词 。 回 顾 4.3 节 ， 
图 的 切 分 是 将 所 有 项 点 分 为 两 个 不 相交 的 集合 ， 而 一 条 横 切 边 则 是 连接 分 别 存 在 于 两 个 集合 中 的 


两 个 顶点 的 一 条 边 。 对 于 流量 网 络 ， 我 们 将 它们 的 定义 提炼 如 下 。 
定义 。st- 切 分 是 一 个 将 顶点 s 和 顶点 1 分 配 于 不 同 集合 中 的 切 分 。 


笑 一 个 st- 切 分 中 ， 每 条 横 切 边 要 么 是 一 条 由 含有 
s 的 集合 指向 含有 1 的 集合 的 st- 边 ， 要 么 是 一 条 反方 向 
的 is- 边 。 有 时 我 们 将 st- 边 的 集合 称 为 一 个 切 分 集 。 在 
流量 网 络 中 ， 一 个 st- 切 分 的 容量 为 该 切 分 的 st- 边 的 容 
量 之 和 ，st- 切 分 的 跨 切 分 流量 (flow across ) 是 切 分 的 
所 有 st- 边 的 流量 之 和 与 所 有 zs- 边 的 流量 之 和 的 差 。 在 
网 络 中 删 去 st- 切 分 的 所 有 st- 边 ( 即 切 分 集 ) 将 会 切断 
所 有 从 s 到 ;7 的 路 径 。 而 重新 添加 其 中 的 任意 一 条 边 都 
会 得 到 一 条 从 * 到 ! 的 路 径 。 切 分 能 够 抽象 许多 应 用 。 
比如 我 们 的 原油 流量 模型 ， 切 分 提供 了 将 从 人 口 流向 出 人 

口 的 原油 完全 切断 的 方法 。 如 果 将 切 分 的 容量 看 作 这 人 么 

做 的 成 本 ， 那 么 切断 流量 的 最 有 效 方法 是 解决 以 下 问题 。 

最 小 st- 切 分 。 给 定 一 个 st- 网络， 找到 容量 最 小 的 st- 切 分 。 简 单 起 见 ， 我 们 将 这 样 的 切 分 称 
为 最 小 切 分 ， 而 将 在 网 络 中 找到 它 的 问题 称 为 最 小 切 分 问题 。 

最 小 切 分 问题 的 定义 中 并 没有 提 到 流量 ， 而 且 这 些 定义 似乎 和 增 广 路 径 算法 无 关 。 从 表面 上 来 
看 ， 计 算 最 小 切 分 ( 得 到 一 组 边 ) 似乎 比 计算 最 大 流量 ( 为 所 有 的 边 赋 权 值 ) 更 容易 。 但 实际 上 ， 
最 大 流量 和 最 小 切 分 问题 是 紧密 相关 的 。 增 广 路 径 算法 本 身 就 是 证 明 。 流 量 和 切 分 的 以 下 基本 关系 
即 可 证 明 st- 流量 网 络 中 的 局 部 平衡 即 意味 着 整个 网 络 的 全 局 平衡 ( 推论 一 ) ， 并 且 可 以 得 到 任意 
st- 流量 值 的 上 界 ( 推论 二 ) 。 


流入 量 和 流出 量 之 


Ne 差 即 为 跨 切 分 流量 


命题 E。 对 于 任意 st- 流量 网 络 ， 每 种 st- 切 分 中 的 跨 切 分 流量 都 和 总 流量 的 值 相 等 。 


证 明 。 设 C, 为 含有 顶点 s 的 集合 ，C, 为 食 有 顶点 1 的 集合 。 对 C 使 用 归纳 法 : 当 C, 仅 含有 zt 
时 该 命题 成 立 ， 若 将 一 个 顶点 由 C, 移动 到 C,， 则 该 结 点 处 的 局 部 平衡 意味 着 可 以 一 直 保 持 该 性 
质 。 因 此 ， 通 过 移动 顶点 可 以 得 到 任意 st- 切 分 。 


推论 。s 的 流出 量 等 于 1 的 流入 量 ( 即 st- 流量 网 络 的 值 ) 。 


证 明 。 令 Cs 为 fy》 即 可 。 


ul 


推论 。st- 流量 网 络 的 值 不 可 能 超过 任意 st- 切 分 的 容量 。 
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命题 F (最 大 流量 -最 小 切 分 定理 ) 。 令 f 为 一 个 st- 流量 网 络 ， 以 下 三 种 条 件 是 等 价 的 
i 存在 某 个 st- 切 分 ， 其 容量 和 /的 流量 相等 ; 
站 /达到 了 最 大 流量 ; 
这 了 中 已 经 不 存在 任何 增 广 路 径 。 


证 明 。 根 据 命 题 己 的 推论 ， 我 们 可 以 由 条 件 i 得 到 条 件 ii。 因 为 增 广 路 径 的 存在 意味 着 存在 某 
个 流量 更 大 的 网 络 配置 ， 这 与 了 的 最 大 性 相 冲 窒 ， 因 此 由 条 件 这 也 可 以 得 到 条 件 填 。 

但 还 需要 证 明 条 件 这 和 条 件 i 等 价 。 令 C, 为 由 s 通过 所 有 不 含有 任何 饱和 正 向 边 或 空 逆向 边 的 
无 向 路 径 可 达 的 所 有 顶点 组 成 的 集合 , 令 C, 为 其 余 的 顶点 的 集合 of 必然 存在 于 C, 中 ,因此 (CC) 
为 一 个 st- 切 分 。 它 的 切 分 集 完全 由 饱和 正 向 边 和 空 送 向 边 组 成 。 该 切 分 的 跨 切 分 流量 和 它 的 容 
量 相等 ( 因为 所 有 正 向 这 都 是 饱和 的 ， 而 所 有 逆向 这 都 是 空 的 ) ， 即 等 于 网 络 中 的 总 流量 (由 
全 遂 曙 可 入 8 


推论 完整 性 ) 。 当 所 有 容量 均 为 整数 时 ， 存 在 一 个 整数 值 的 最 大 流量 ， 而 Ford-Fulkerson 算 
法 能 够 找 出 这 个 最 大 值 。 
证 明 。 每 条 增 广 路 径 都 会 将 总 流量 增 大 茶 个 正 整 数值 ( 正 向 边 中 未 使 用 容量 的 最 小 值 各 逆向 边 
的 容量 都 是 正 整数 ) 。 


即使 所 有 边 的 容量 均 为 整数 ， 我 们 也 可 以 设计 出 能 够 达到 最 大 流量 的 非 整数 配置 ， 但 这 里 不 
需要 考虑 这 样 的 配置 。 从 理论 角度 来 说 ， 下 面 的 意见 是 很 重要 的 : 我 们 已 经 演示 过 并 且 实 际 情况 
也 需要 人 允许 容量 和 流量 可 以 为 实数 ， 但 它 会 导致 一 些 异 常情 况 。 例 如 ， 已 知 Ford-Fulkerson 算法 
在 原则 上 可 能 得 到 无 穷 多 的 增 广 路 径 以 至 于 无 法 收敛 到 某 种 最 大 流量 的 配置 。 我 们 讨论 的 这 个 版 
本 总 是 可 以 收敛 的 ， 即 使 是 实数 值 的 容量 和 流量 也 不 例外 。 无 论 我 们 用 什么 方法 寻找 增 广 路 径 ， 
无 论 我 们 找到 了 什么 样 的 路 径 ， 最 后 总 是 能 够 得 到 一 种 不 存在 任何 增 广 路 径 的 流量 配置 ， 即 最 大 
流量 的 配置 。 
6.0.4.6 ”剩余 网 络 

通用 的 Ford-Fulkerson 算法 并 没有 指定 寻找 增 广 路 径 的 方法 。 如 何 才能 找到 不 含有 饱和 正 向 边 
和 空 道 向 边 的 路 径 呢 ? 为 此 ， 我 们 给 出 如 下 定义 。 


定义 。 给 定 某 个 st- 流量 网 络 和 其 st- 流量 配置 ， 这 种 配置 下 的 剩余 网 络 中 的 顶点 和 原 网 络 相同 。 
原 网 络 中 的 每 条 边 都 对 应 着 剩余 网 络 中 的 1 ~ 2 条 边 。 它 的 定义 如 下 : 对 于 原 网 络 中 的 每 条 从 
顶点 V 到 w 的 边 e,， 令 大 表示 它 的 流量 、c 表 示 它 的 容量 。 如 果 大 为 正 ， 将 边 w 一 Vv 加 入 剩余 
网 络 且 容量 为 J; 如 果 大 小 于 c。， 将 边 v 一 w 加 入 剩余 网 络 且 容量 为 cs 


如 果 从 vv 到 w 的 边 e 为 空 ( 即 上 为 0) ， 剩 余 网 络 中 就 具有 一 条 容量 为 c. 的 边 v 一 w 与 之 对 应 ; 
如 果 该 边 饱 和 ( 即 大 等 于 c.), 剩余 网 络 就 具有 一 条 容量 为 大 的 边 w 一 v 与 之 对 应 ; 如 果 它 既 不 为 空 ， 
也 不 饱和 ， 那 么 剩余 网 络 中 将 含有 相应 容量 的 v 一 w 和 w 一 v。 请 见 图 6.0.22。 


> 


的 是 剩 
择 从 这 


容量 并 


流量 图 流量 的 表示 剩余 网 络 
01 2.0 2.0 oe 
02 3.0 1.0 1.0 一 .地 同 过 
13 3.0 2.0 (实际 流量 ) 
14 1.0 0.0 
23 TQ0, G0 
24 1.0 1.0 
35 2.0 2.0 
45 3.0 1.0 
分 ?县 - >= 三 网 
全 里 庆 蛙 正 向 沪 
(剩余 容量 ) 


图 6.0.22 “网络 流 问题 详解 


一 看 ， 剩 余 网 络 有 些 让 人 困惑 ， 因 为 与 流量 对 应 的 边 的 方向 却 和 流量 本 身 相 反 。 正 向 边 表示 


余 的 容量 ( 即 如 果 选 择 从 这 条 边 通行 所 能 增长 的 流量 ) ; 逆向 边 表 示 了 实际 流量 ( 即 如 果 选 


条 边 通 行将 会 减少 的 流量 ) 。 后 面 框 注 中 的 代码 给 出 了 在 FlowEdge 类 中 实现 剩余 网 络 这 种 


抽象 所 需 的 方法 。 通 过 这 些 实现 ， 虽 然 该 算法 处 理 的 是 剩余 网 络 ， 但 它 实 际 上 是 在 检查 所 有 剩余 的 


(通过 边 的 引用 ) 修正 流量 配置 。 


流量 网 络 中 的 边 (剩余 网 络 ) 


public class FlowEdge 


{ 


private final int v; // 边 的 起 点 
private final int w; // 边 的 终点 
private final double capacity; // 容量 
private double flow; // 流量 


public FlowEdge(int v, int w, double capacity) 


二 

this.v = Vi 

this.w = w; 

this.capacity = capacity; 

this.flow = 0.0; 
public int from() { return v; } 
public int to() { return w; } 
public double capacity() { return capacity; 了 
public double flow() { return flow; } 


public int other(int vertex) 
// 同 Edge 类 


public double residualCapacityTo(int vertex) 


' 让 在 (vertex == v) return flow; 

else if (vertex == w) return capacity- flow; 

else throw new RuntimeException("“Inconsistent edge”) ; 
. 
public void addResidualFlowTo(int vertex, double delta) 
{ 


if (vertex == v) flow -= delta; 
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} 


这 里 的 FlowEdge 类 的 基础 是 4.4 节 中 对 加 权 边 的 DirectedEdge 类 的 实现 (请 见 4.4.2 节 框 注 


b 
背 景 
else if (vertex == w) flow += delta; 


else throw new RuntimeException("“Inconsistent edge”); 


public String toString() 


return String.format("“%d->%d %.2f %.2f”, v, w, capacity, flow); } 


mT 
t+ 
三 


权 有 向 边 的 数据 类 型 ”) ， 它 添加 了 一 个 实例 变量 flow 和 两 个 方法 来 实现 了 剩余 网 络 。 


我 们 可 以 使 用 from() 和 otherQ 方法 处 理 两 个 方向 的 边 : e.other(v) 可 以 返回 e 的 两 个 顶 
点 中 和 v 相对 的 男 一 个 顶点 。residualCapacityTo() 和 addRresidualFlowTo() 方法 实现 了 剩 


余 网 络 。 剩 余 网 络 使 得 我 们 可 以 通过 图 中 的 搜索 算法 寻找 增 广 路 径 ， 这 是 因为 在 剩余 网 络 中 所 有 从 


起 点 到 终点 的 路 径 都 是 原 流量 网 络 中 的 一 条 增 广 路 径 。 沿 着 增 广 路 径 增 大 流量 意味 着 修改 剩余 网 络 。 
例如 ， 至 少 有 一 条 路 径 上 的 边 变 得 饱和 或 变 为 空 ， 因 此 在 剩余 网 络 中 至 少 有 一 条 边 将 会 改变 方向 或 


者 消失 。 


《我 们 使 用 的 是 抽象 的 剩余 网 络 ， 因 此 只 会 检查 正 容 量 ， 不 需要 实际 插入 或 删除 边 。 ) 


private boolean hasAugmentingPath(FlowNetwork G, int s, int t) 


‘ 
marked = new boolean[G.VO)]; // 标记 路 径 已 知 的 顶点 
edgeTo = new FlowEdge[G.V()]; // 路 径 上 的 最 后 一 条 边 
Queue<Integer> q = new Queue<Integer>() ; 
marked[s] = true; // 标记 起 点 
q.enqueue(s); // 并 将 它 入 列 
while (!q.isEmpty()) 
四 


int v = q.dequeue(); 
for (FlowEdge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (e.residualCapacityTo(w) > 0 && !marked[w]) 


{ // (在 剩余 网 络 中 ) 对 于 任意 一 条 连接 到 一 个 未 
被 标记 的 顶点 的 边 
edgeTo[w] = e; // 保存 路 径 上 的 最 后 一 条 边 
marked[w] = true;  // 标记 W， 因 为 路 径 现在 是 已 知 的 了 
d.enqueue (w); // 将 它 入 列 
} 
JD 
} 
return marked[t]; 


上 


在 剩余 网 络 中 通过 广度 优先 搜索 寻找 增 广 路 径 


6.0.4.7 ”最短 增 广 路 径 算 法 

对 Ford-Fulkerson 算法 最 简单 的 实现 可 能 就 是 最 短 增 广 路 径 算法 了 ( 最 短 指 的 是 路 径 长 度 最 小 ， 
而 非 流量 或 是 容量 ) 。JEdmonds 和 R.Karp 在 1972 年 发 明了 这 个 算法 。 这 里 ， 增 广 路 径 的 查找 等 
价 于 剩余 网 络 中 的 广度 优先 搜索 (BFS ) ， 如 4.1 节 所 述 。 你 也 可 以 将 hasAugmentingPath() 
的 实现 与 广度 优先 搜索 实现 的 算法 4.2 比较 一 下 。 ( 剩余 网 络 是 有 向 图 ， 因 此 这 实际 上 是 一 个 
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有 向 图 处 理 算法 。 ) 这 个 方法 为 完整 实现 剩余 网 络 的 算法 6.3 打下 了 基础 ， 它 非常 简洁。 为 


了 方便 ， 我 们 将 这 个 方法 称 为 最 短 增 广 路 径 的 最 大 流量 算法 。 它 处 理 样 例 数据 的 详细 轨迹 如 图 


6.0.23 所 示 。 


算法 6.3 ”最 短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 。 


public class FordFulkerson 


{ 


} 


private boolean[] marked; // 在 剩余 网 络 中 是 否 存 在 从 S 到 V 的 路 径 ? 
private FlowEdge[] edgeTo; // 从 Ss 到 Vv 的 最 短路 径 上 的 最 后 一 条 边 
private double value; // 当前 最 大 流量 


public FordFulkerson(FlowNetwork G, int s, int 七 ) 
{ // 找 出 从 Ss 到 t 的 流量 网 络 G 的 最 大 流量 配置 
while (hasAugmentingPath(G, s, t)) 
{ // 利用 所 有 存在 的 增 广 路 径 
// 计算 当前 的 瓶颈 容量 
double bottle = Double.POSITIVE_INFINITY; 
for (int v= t; v != siv= edgeTo[v].other(v)) 
bottle = Math.min(bottle, edgeTo[v].residualCapacityTo(Vv)); 
// 增 大 流量 
for (int v= t; v != s; Vv = edgeTo[v].other(v)) 
edgeTo[v].addResidualFlowTo(v, bottle); 


value += bottle; 


} 


public double value(Q) { return value; } 


public boolean inCut(int v) { return marked[v]; } 


public static void main(String[] args) 

上 
FlowNetwork G = new FlowNetwork(new In(args[0])); 
int s=0,t=G.VO-1; 


FordFulkerson maxflow = new FordFulkerson(G, s, t); 


Stdout.println(“Max flow from " +Ss+" to" + t); 
for (Cint v = 0; Vv < G.VO; v++) 
for (FlowEdge e : G.adj(v)) 
if ((v == e.from()) && e.flow() > 0) 
StdOut.print1inC" "+ e); 


StdOut.printin("Max flow value = + maxflow.value()); 


这 段 Ford-Fulkerson 算法 的 实现 会 在 剩余 网 络 中 寻找 最 短 增 广 路 径 ， 找 出 路 径 上 的 瓶颈 容量 并 增 大 
该 路 径 上 的 流量 ， 如 此 往复 直至 不 再 存在 从 起 点 到 终点 的 增 广 路 径 为 止 。 
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899 图 6.0.23 ”最 短 增 广 路 径 的 FordFulkerson 算法 的 轨迹 


和 
Xb Wb 


总 大 


图 6.0.24 一 个 较 大 的 流量 网 络 中 的 最 短 增 广 路 径 


6.0.4.8 性 能 
图 6.0.24 所 示 的 是 一 个 更 大 的 例子 。 从 图 中 我 们 可 以 清晰 地 看 到 , 增 广 路 径 的 长 度 在 慢 慢 变 长 。 


这 是 分 析 算 法 性 能 的 第 一 个 要 点 。 


命题 G。 最 短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 在 处 理 含 有 严 个 顶点 和 互 条 边 的 流量 网 
络 时 找到 的 增 广 路 径 最 多 为 EVI2 条 。 

简略 证 明 。 每 条 增 广 路 径 中 都 含有 一 条 关键 边 一 一 这 条 边 在 剩余 网 络 中 会 被 删 掉 ， 因 为 它 对 应 
的 可 能 是 一 条 将 会 被 充满 的 正 向 边 或 是 将 会 被 抽 干 的 逆向 边 。 每 当 一 条 边 成 为 关键 边 时 ， 通 过 
它 的 增 广 路 径 的 长 度 就 会 如 2 (请 见 练习 6.39 ) 。 因 为 增 广 路 径 的 最 大 长 度 为 巨 且 每 条 边 最 多 


可 能 出 现在 V12 条 增 广 路 径 上 ， 因 此 增 广 路 径 的 总 数 最 多 为 EV/2。 900 


推论 。Ford-Fulkerson 算法 的 最 短 增 广 路 径 实现 所 需 的 时 间 在 最 坏 情况 下 为 VE /2。 
证 明 。 广 度 优先 搜索 最 多 会 检查 互 条 边 。 


命题 G 所 述 的 上 界 是 非常 保守 的 。 例 如 ， 图 6.0.24 中 含有 11 个 顶点 和 20 条 边 ， 该 上 界 说明 算 
法 使 用 的 增 广 路 径 最 多 为 110 条 ， 但 实际 上 它 只 用 了 14 条 
6.0.4.9 ”其 他 实现 
Edmonds 和 Karp 发 明 的 另 一 种 Ford-Fulkerson 算法 的 实现 是 优先 处 理 能 够 将 流量 增 大 最 多 的 
增 广 路 径 。 简 单 起 见 ， 我 们 将 这 种 方法 称 为 最 大 容量 增 广 路 径 的 最 大 流量 算法 。 对 于 这 种 (以 及 其 
他 一 些 ) 方法 ， 可 以 通过 稍 加 修改 Dijkstra 的 最 短路 径 算法 、 由 优先 队列 得 到 剩余 容量 最 大 的 正 向 
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边 或 是 流量 最 大 的 逆向 边 来 实现 。 或 者 也 可 以 寻找 最 长 增 广 路 径 ， 或 是 随机 选择 增 广 路 径 。 要 完整 
分 析 哪 种 才 是 最 佳 的 方法 是 一 个 复杂 的 任务 ， 因 为 它们 的 运行 时 间 取 决 于 : 
口 找到 最 大 流量 所 需 检查 的 增 广 路 径 数量 ; 
口 寻找 每 条 增 广 路 径 所 需 的 时 间 。 

这 些 量 的 变化 可 能 很 大 ， 和 流量 网 络 本 身 以 及 图 的 搜索 策略 有 关 。 人 们 还 发 明了 解决 最 大 流 
量 问 题 的 其 他 几 种 算法 ， 其 中 一 些 在 实践 中 和 Ford-Fulkerson 算法 不 分 高 下 。 但 是 ， 为 最 大 流量 
算法 进行 数学 建 模 来 验证 这 些 猜想 是 一 个 非常 困难 的 问题 。 各 种 最 大 流量 算法 的 分 析 仍 然 是 一 个 
有 趣 而 活跃 的 研究 领域 。 从 理论 角度 来 说 ， 我 们 已 经 得 到 了 各 种 最 大 流量 算法 在 最 坏 情 况 下 的 上 
界 ， 但 这 些 上 界 大 多 远 远 高 于 实际 应 用 中 所 观察 到 的 真实 成 本 ， 而 且 也 比较 小 的 下 界 ( 线性 级 别 ) 
高 出 许多 。 最 大 流量 问题 的 已 知 成 本 和 潜在 成 本 之 间 的 差距 比 (目前 ) 本 书 中 讨论 过 的 任何 问题 
都 要 大 。 

最 大 流量 算法 的 实际 应 用 仍然 既是 一 门 艺 术 也 是 一 门 科学 。 它 的 艺术 之 处 在 于 为 特定 的 应 用 场 
景 选择 最 有 效 的 策略 ; 它 的 科学 之 处 在 于 对 问题 本 质 的 理解 。 是 否 存 在 能 够 在 线性 时 间 内 解决 最 大 
流量 问题 的 新 数据 结构 和 算法 呢 ?” 或 者 我 们 能 否 证 明 它 们 不 存在 呢 ? 请 见 表 6.0.6。 


表 6.0.6 ”各 种 最 大 流量 算法 的 性 能 特点 


在 含有 V 个 顶点 和 三 条 边 的 流量 网 络 中 〈 各 边 容量 最 大 为 C) ， 


本 人 算法 的 运行 时 间 在 最 坏 情况 下 的 增长 数量 级 
最 短 增 广 路 径 的 Ford-Fulkerson 算法 7 
最 大 容量 的 Ford-Fulkerson 算法 FlogC 
预 流 推 进 算法 ( preflow-push ) EVlog(E/V) 
未 知 算法 ? V+E? 


6.0.5 ”问题 归 约 

本 书 中 ， 我 们 一 直 注 重 说明 革 个 特定 的 问题 ， 然 后 给 出 解决 问题 的 算法 和 数据 结构 。 在 许多 情 
况 下 (以 下 列 出 了 很 多 ) ， 我 们 发 现 如 果 能 够 将 某 个 问题 转化 为 已 经 解决 的 问题 的 某 个 形式 ,那么 
解决 它 将 会 更 容易 。 在 研究 已 经 学 习 过 的 各 种 算法 与 形形色色 的 各 种 问题 之 间 的 关系 之 前 ， 我 们 应 
该 正式 定义 这 个 解决 问题 的 过 程 。 


定义 。 如 果 能 够 用 解决 问题 B 的 算法 得 到 一 个 解决 问题 A 的 算法 ， 则 说 问题 A 能 够 被 归 约 为 
间 题 B。 


这 个 概念 在 软件 开发 中 显然 并 不 陌生 : 当 你 使 用 一 个 库 方 法 解决 某 个 问题 时 ， 正 是 在 将 所 需要 
解决 的 问题 归 约 为 该 库 方法 所 解决 的 问题 。 本 书 中 ,我 们 一 直 非 正式 地 将 能 够 归 约 为 给 定 问 题 的 其 
他 问题 称 为 应 用 。 
6.0.5.1 ”排序 问题 

我 们 在 第 2 章 第 一 次 遇 到 了 问题 的 归 约 ， 当 时 我 们 想 说 明 的 是 高 效 的 排序 算法 可 以 用 于 解决 许 
多 看 起 来 与 排序 无 关 的 其 他 问题 。 例 如 ， 在 许多 有 趣 的 问题 中 ， 我 们 研究 了 以 下 几 个 问题 。 

口 寻找 中 位 数 。 给 定 一 组 数字 的 集合 ， 找 出 中 位 数 。 


口 不 重复 的 值 。 在 给 定 的 集合 中 找 出 所 有 不 同 的 值 。 
口 最 小 平均 完成 时 间 的 调度 问题 。 给 定 一 组 任务 的 集合 和 它们 的 时 耗 ， 在 一 个 处 理 需 上 应 该 如 
何 安排 调度 使 得 它们 的 平均 完成 时 间 最 小 呢 ? 


命题 H。 以 下 问题 可 以 被 归 约 为 排序 问题 : 
口 寻找 中 位 数 ; 

口 统计 不 同 的 值 ; 

口 最 小 平均 完成 时 间 的 调度 问题 。 


证 明 。 请 见 2.5.3.4 节 和 和 练习 2.5.12。 


我 们 还 需要 注意 归 约 的 成 本 。 例 如 ,我们 可 以 在 线性 时 间 内 找到 一 组 数 的 中 位 数 ， 但 是 如 果 归 


约 为 排序 问题 ， 那 就 需要 线性 对 数 级 别 的 时 间 。 即 使 是 这 样 ， 额 外 的 成 本 或 许 还 是 可 以 接受 的 ， 因 
为 我 们 可 以 使 用 已 有 的 排序 实现 。 排 序 的 价值 在 于 以 下 3 个 方面 : 
口 它 有 其 自身 的 实用 性 ; 
口 我 们 的 算法 能 够 有 效 解决 排序 问题 ; 
口 许多 问题 都 能 够 归 约 为 排序 问题 。 
一 般 来 说 ， 我 们 将 具有 这 些 性 质 的 问题 称 为 问题 解决 模型 。 和 成 熟 的 库 一 样 ， 设 计 良 好 的 问题 
解决 模型 能 够 大 大 扩展 我 们 能 够 处 理 的 问题 域 。 但 是 ， 在 过 度 关注 于 问题 解决 模型 时 容易 犯 下 的 一 
个 错误 被 称 为 Maslow 的 锤子 ， 这 是 由 A.Maslow 在 20 世纪 60 年 代 提 出 并 广为人知 的 一 名 话 : 如 
果 你 有 一 把 锤子 ， 那 么 什么 东西 都 看 起 来 都 像 颗 钉子 。 如 果 沉 迷 于 若干 问题 解决 模型 ， 我 们 就 可 能 
将 它们 当 作 Maslow 的 锤子 一 样 来 解决 遇 到 的 所 有 问题 ， 从 而 妨碍 了 发 现 解决 问题 的 更 好 方法 ， 甚 
至 是 新 的 问题 解决 模型 。 尽 管 本 书 所 讨论 的 模型 都 非常 重要 、 实 用 且 应 用 广泛 ， 但 是 考虑 各 种 其 他 
可 能 性 仍然 是 明智 的 选择 。 
6.0.5.2 ”最 短路 径 问 题 
在 44 节 学 习 最 短路 径 算法 时 也 遇 到 了 问题 归 约 的 概念 。 在 许多 有 趣 的 问题 中 ,我 们 研究 了 以 下 几 个 。 
口 无 向 图 中 的 单 点 最 短路 径 问 题 。 给 定 一 幅 加 权 无 向 图 和 起 点 s, 其 中 所 有 权重 非 负 , 回答 “是 
否 存在 从 s 到 给 定 目 的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 这 样 一 条 最 短路 径 (总 权重 最 小 ) 。” 
等 类 似 问 题 。 

口 优先 级 限制 下 的 并 行 任务 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先 
后 次 序 的 优先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 的 处 理 器 上 ( 数量 不 限 ) 
安排 任务 并 在 最 短 的 时 间 内 完成 所 有 任务 ? 

口 套 汇 。 在 给 定 的 汇率 表 中 找 出 一 个 套 汇 的 机 会 。 

和 刚才 一 样 ， 后 两 个 问题 看 起 来 和 最 短路 径 问 题 并 没有 直接 的 关系 ， 但 最 短路 径 算 法 能 够 有 效 
地 解决 它们 。 这 些 示 例 问题 虽然 都 很 重要 ， 但 并 没有 什么 代表 性 。 许 多 非常 重要 的 问题 ( 太 多 了 ， 
无 法 一 一 讨论 ) 都 能 够 归 约 为 最 短路 径 问题 一 一 这 是 一 个 非常 有 效 而 重要 的 问题 解决 模型 。 
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命题 |。 以 下 问题 能 够 归 约 为 加 权 图 中 的 最 短路 径 问 题 : 
口 非 负 权 重 的 无 向 图 中 的 单 点 最 短路 径 问题 ; 


口 优先 级 限制 下 的 并 行 调度 问题 ; 
口 套 汇 问题 ; 
口 其 他 许多 问题 。 


例证 。 请 见 4.4.4.2 节 命题 RR、4.4.5.2 节 框 注 “优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 方法 ” 


和 4.4.6.9 节 框 注 “ 货 币 兑 换 中 的 套 汇 ”。 


6.0.5.3 ”最 大 流量 问题 

最 大 流量 问题 在 许多 情况 下 同样 非常 
相关 的 流量 问题 ， 也 可 以 用 它 解 决 其 他 网 
下 问 题 。 


重要 。 我 们 可 以 去 掉 流量 网 络 中 的 各 种 限制 并 解决 
络 或 者 图 的 处 理 问题 ， 


甚至 是 非 网 络 问题 。 例 如 以 


口 就 业 安置 。 大 学 里 的 就 业 指 导 中 心 会 为 学 生 安排 公司 面试 。 这 些 面试 的 结果 是 一 系列 工作 机 


会 。 假 设 一 次 成 功 的 面试 表示 了 学 生 和 公司 之 间 的 相互 认可 


旧 学 生 将 会 接受 这 份 职位 ， 那 么 


这 样 的 就 业 安置 数量 当然 是 越 多 越 好 。 有 可 能 为 每 一 位 学 生 安 排 一 份 工作 吗 ? 最 多 可 能 安排 


多 少 份 工 作 ? 


口 产品 配送 。 假 设 有 一 家 只 生产 一 种 产品 的 公司 ， 它 拥 
产品 的 物流 分 配 中 心 以 及 销售 商品 的 零售 


有 能 够 生产 产品 的 工厂 ， 能 够 暂时 储存 


营 店 。 公 司 需 要 定期 将 产品 通过 物流 分 配 中 心 分 


发 到 各 地 的 直 营 店 ， 而 各 地 的 分 配 通 道 的 配送 能 力 各 有 不 同 。 有 可 能 使 各 地 仓库 的 供应 量 与 


直 营 店 的 销售 量 相 匹配 吗 ? 


口 网 络 可 靠 性 。 一 种 简化 的 模型 可 以 将 一 个 计算 机 网 络 看 成 是 通过 交换 机 连接 所 有 电脑 的 一 组 


最 少 需要 切断 多 少 条 主干 线 ? 


主干 网 ， 任 意 两 台电 脑 都 能 够 通过 交换 机 和 主干 线 相互 连接 。 切 断 某 一 对 计算 机 之 间 的 连接 


同样 ， 这 些 问题 各 不 相关 ， 也 看 起 来 不 属于 流量 网 络 的 问题 范畴 ， 但 它们 都 可 以 被 归 约 为 最 大 
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命题 J。 以 下 间 题 可 以 归 约 为 最 大 流量 问题 : 
口 就 业 安置 ; 

口 产品 配送 ; 

口 网 络 可 靠 性 ; 

口 其 他 许多 问题 。 


例证 。 这 里 只 证 明 第 一 个 问题 《又 叫做 最 大 三 分 图 匹配 问题 ) ， 其 他 的 将 留 作 练习 。 我 们 可 以 


为 给 定 的 就 业 安 置 问题 构造 一 个 对 应 的 最 大 流 
添加 一 个 起 点 且 对 于 每 个 学 生 都 有 一 条 从 起点 3 
一 条 由 公司 指向 终点 的 过。 图 中 的 每 条 边 的 容量 都 是 1， 请 见 


FPF 的 所 有 边 均 由 学 生 指 向 公司 ,然后 
指向 他 的 边 ， 添 加 一 个 终点 且 对 于 每 个 公司 都 有 
图 6.0.25。 现 在 ， 这 个 网 络 中 的 最 


大 流量 问题 的 每 个 解 都 是 对 应 的 二 分 图 匹配 问题 的 的 解 ( 请 见 命 题 F 的 推论 ) 。 匹 配 中 的 所 有 


边 的 两 个 顶点 都 正好 分 别 属于 学 生 和 公司 两 个 集合 且 它 们 在 最 大 流量 配置 中 都 会 是 饱和 的 。 首 
先 ， 网 络 流 总 是 会 给 出 一 个 合法 的 匹配 : 因为 每 个 顶点 都 既 有 一 条 流入 边 ( 来自 和 于 起 点 ) 和 一 
条 流出 边 ( 指向 终点 ) 且 经 过 的 流量 最 多 为 1， 所 以 每 个 顶点 最 多 只 能 出 现在 一 个 匹配 中 。 其 次 ， 
匹配 不 可 能 含有 更 多 的 边 ， 因 为 任意 类 似 的 匹配 都 意味 着 一 个 比 最 大 流量 算法 的 结果 更 好 的 流 
量 配 置 。 


二 分 图 匹配 问题 匹配 ( 解 ) 
l i 和 iee = 
ce 流量 网 络 的 构造 "0 
ta ee Carol 一 Facebook 
2 Bob 8 Amazon Dave 一 Adobe 
Adobe Alice Eliza — Google 
Amazon Bob Frank— IBM 
Yahoo Dave 
3 Carol 9 Facebook 
Facebook Alice 
Google Carol 
IBM 10 Google 
4 Dave Caro| 
Adobe Eliza 
Amazon 11 IBM 
5 Eliza Caro| 
Google Eliza 
IBM Fran 
Yahoo 12 Yahoo 
6 Frank Bob 
IBM Eliza 
Yahoo Fran 


图 6.0.25 ”将 二 分 图 匹配 问题 归 约 为 网 络 流 问题 示例 


例如 ， 如 图 6.0.26 所 示 ， 一 个 增 广 路 径 最 大 流量 算法 可 能 会 使 用 路 径 s 一 1 一 7 一 t、s 一 
2 一 8 一 ts 一 3 一 9 一 t、s 一 5 一 10 一 ts 一 6 一 11 一 上 和 s 一 4 一 7 一 1 一 8 一 2 一 12 一 t 
计算 得 到 匹配 1-8、2-12、3-9、4-7、5-10 和 6-11。 因 此 ， 在 示例 中 可 以 找到 一 种 将 所 有 学 生 和 
工作 相 匹 配 的 方法 。 每 条 增 广 路 径 都 会 使 一 条 由 起 点 指出 的 边 和 一 条 指向 终点 的 边 充满 。 我 们 可 以 
注意 到 ， 这 些 边 都 不 是 逆向 边 ， 因 此 最 多 只 存在 亚 条 增 广 路 径 ， 总 运行 时 间 与 友 成 正比 。 

最 短路 径 和 最 大 流量 算法 都 是 重要 的 问题 解决 模型 ， 因 为 它们 和 排序 算法 有 着 相同 的 性 质 : 
口 它们 有 其 自身 的 实用 性 ; 
口 我 们 的 算法 能 够 有 效 解决 它们 ; 
口 许多 问题 都 能 够 归 约 为 这 些 模 型 。 

这 段 简短 的 讨论 只 是 为 了 介绍 这 个 概念 。 如 果 你 能 学 习 一 门 有 关 运 筹 学 的 课程 ， 就 将 会 学 到 许 
多 能 够 归 约 为 这 些 模型 的 其 他 问题 以 及 更 多 的 问题 解决 模型 。 
6.0.5.4 ”线性 规划 

运筹 学 的 基础 之 一 是 线性 规划 (Linear Programming，LP ) ， 请 见 图 6.0.27。 它 的 主要 思想 是 
将 给 定 的 问题 归 约 为 以 下 数学 形式 。 

线性 规划 。 给 定 一 个 由 MM 个 线性 不 等 式 组 成 的 集合 和 含有 NN 个 决策 变量 的 线性 等 式 ， 以 及 一 
个 由 该 个 决策 变量 组 成 的 线性 目标 函数 ， 找 出 能 够 使 目标 函数 的 值 最 大 化 的 一 组 变量 值 ， 或 者 证 
明 不 存在 这 样 的 赋值 方案 。 
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线性 规划 是 一 种 极为 重要 的 问 
题解 决 模型 ， 因 为 : 
口 非常 多 的 重要 问题 都 能 够 归 
约 为 线性 规划 问题 ; 
D 我 们 的 算法 能 够 有 效 解决 线 

性 规划 问题 。 

在 讨论 其 他 问题 解决 模型 时 
的 “该 问题 有 其 自身 的 实用 性 ” 
就 不 必 担 了， 因为 能 够 归 约 为 线 
性 规划 问题 的 实际 问题 实在 是 太 
多 了 。 


命题 K。 以 下 问题 均 可 归 约 为 线性 
口 最 大 流量 问题 ; 
口 最 短路 径 问题 ; 


口 许多 许多 其 他 问题 。 
例证 。 我 们 只 证 明 第 一 个 问题 并 ; 


根据 约束 条 件 
使 得 /+h 最 大 化 
0<a<2 
0<b<3 
0<c<3 
0<dad<1 
0<e<1 
0</<1 
0< ge<2 
0<h<3 
a=ct+d 
b=etf 
E 趟 区 三 各 
d+f=h 


图 6.0.27 ”线性 规划 问题 示例 


规划 问题 : 


格 第 三 个 留 作 练习 6.50。 考 虑 一 个 


由 不 等 式 和 等 式 所 组 成 的 系统 ， 


其 中 每 一 个 约束 变量 都 对 应 着 一 条 


边 ， 两 个 不 等 式 也 对 应 着 一 条 边 ， 


每 一 个 等 式 对 应 着 一 个 顶点 (起 


点 和 终点 除外 ) 。 约 束 变量 的 值 就 是 边 中 的 流量 ， 不 等 式 指明 了 边 
中 的 流量 必须 在 0 和 边 的 容量 之 间 ， 而 等 式 说 明 指 向 每 个 顶点 的 所 
有 边 中 的 流量 之 和 必须 和 从 该 顶点 指出 的 所 有 边 中 的 流量 之 和 相等 。 
任意 最 大 流量 问题 都 可 以 用 这 种 方式 归 约 为 一 个 线性 规划 问题 ， 而 


它 的 解 又 可 以 很 容易 地 归 约 为 最 大 流量 问题 的 解 。 


一 个 具体 的 示例 。 


此 能 
规划 问题 。 


命题 K 中 所 说 的 “许多 许多 其 他 问题 ”有 三 个 含义 。 第 一 ， 
束 条 件 和 扩展 线性 规划 模型 非常 简单 。 第 二 ， 
够 归 约 为 最 短路 径 和 最 大 流量 问题 的 所 有 问题 也 能 够 归 约 为 线性 
第 三 ， 也 是 更 普遍 的 一 种 情况 ， 即 各 种 最 优化 问题 都 能 够 直 


图 6.0.28 给 出 了 


添加 约 
问题 的 归 约 是 有 传递 性 的 ， 


接 构造 为 线性 规划 问题 。 事 实 上 ， 线 性 规划 这 个 词 的 意思 就 是 “将 一 个 
最 优化 问题 构造 为 一 个 线性 规划 问题 ”。 这 种 用 法 出 现在 “programming” 


这 个 词 被 用 作 计算 机 领域 的 “编程 ” 


归 约 为 线性 规划 问题 同样 重要 的 是 ， 


之 意 之 前 。 和 非常 多 的 问题 都 可 以 
解决 线性 规划 问题 的 高 效 算法 已 经 


发 明了 数 十 年 了 。 其 中 最 著名 的 是 G. Dantzig 在 20 世纪 40 年 代 发 明 的 单 
纯 形 法 (simplex algorithm ) 。 理 解 单纯 形 法 并 不 困难 (请 见 本 书 网 站 
上 对 它 的 简单 实现 ) 。 更 近 一 些 的 时 候 ，L. G. Khachian 在 1979 年 演示 了 


椭 球 法 (ellipsoid algorithm ) 并 推动 了 20 世纪 80 年 代 内 点 法 (interior point methods ) 的 发 展 。 对 
于 人 们 在 现代 应 用 中 遇 到 的 各 种 大 型 线性 规划 问题 ， 内 点 法 是 对 单纯 形 法 的 有 效 补充 。 现 在 ,解决 
线性 规划 问题 的 程序 都 已 经 十 分 健壮 、 久 经 考验 、 高 效 并 且 对 于 现代 公司 机 构 的 基本 运作 起 到 了 关 
键 的 作用 。 它 在 科学 领域 甚至 应 用 程序 中 的 运用 也 在 不 断 扩展 。 如 果 线 性 规划 模型 能 够 表示 你 的 问 
题 ， 那 么 离 问 题 的 解决 也 就 不 远 了 。 


最 大 流量 问题 最 大 流量 问题 的 解 
Ve EE 从 顶点 0 到 顶点 5 的 最 大 流量 配置 
J 线性 规划 问题 的 构造 。 线性 规划 0 
- 3 根据 约束 条 件 使 得 问题 的 解 1 一 41.0 1.0 
i X3s+x4s 最 大 化 1 一 3 3.0 1.0 
2 3 1.0 0<xo<2 X01=2 oT010 
24 1.0 0<xo<3 X02=2 2 一 4 1.01.0 
3 0 0<x13<3 Xx13=1 3—5 2.0 2.0 
| QR 1 x14=1 4—5 3.0 2.0 
容量 0 入 x23 乏 1] X23= 1 最 大 流量 值 : 4.0 
0 和 xz24 委 1 X24= 1 
0<x35<2 X35=2 
0<x4s<3 X45=2 


X01 X13+ X14 
X02=X23t X24 
X13tX23=X35 


X14t X24 X45 


图 6.0.28 ”将 网 络 流 问题 归 约 为 线性 规划 问题 


非常 现实 地 说 ， 线 性 规划 是 各 种 问题 解决 模型 的 鼻祖 ， 因 为 非常 多 的 问题 都 能 向 它 归 约 。 很 自 
然 ， 这 一 点 也 使 我 们 不 禁 思考 是 否 存在 比 线性 规划 问题 更 强大 的 问题 解决 模型 。 还 有 哪些 问题 无 法 
归 约 为 线性 规划 问题 ? 下面 就 是 一 个 例子 。 

负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 ， 应 该 如 何在 两 个 相同 的 处 理 器 上 分 配 任务 使 得 所 
有 任务 的 总 完成 时 间 最 短 ? 

我 们 能 够 找到 一 个 更 加 一 般 的 问题 解决 模型 并 高 效 解决 它 的 实例 吗 ?这样 的 思考 得 到 的 结果 是 
不 可 解 性 ， 它 也 将 是 本 书 的 最 后 一 个 话题 。 


6.0.6 ”不可解 性 

本 书 中 讨论 的 算法 一 般 都 是 用 来 解决 实际 问题 的 ， 因 此 它们 消耗 的 资源 都 是 有 限 的 。 大 多 数 算 
法 的 实用 性 是 显而易见 的 ， 而 且 对 于 许多 问题 ， 我 们 还 很 幸运 地 能 够 在 几 种 不 同 的 算法 之 间 进 行 选 
择 。 但 不 幸 的 是 ， 现 实生 活 中 还 有 许多 其 他 问题 并 没有 如 此 有 效 的 解决 方法 。 更 糟糕 的 是 ， 对 于 许 
多 类 问题 ， 人 们 甚至 不 知道 是 否 存 在 有 效 解决 它们 的 方法 。 这 种 情况 让 程序 员 和 算法 的 设计 者 都 极 
度 肖 形 ， 因 为 他 们 无 法 为 许多 实际 问题 找到 有 效 的 算法 。 对 于 理论 学 者 而 言 ， 诅 丧 来 自 于 他 们 无 法 
证 明 这 些 问题 到 底 有 多 难 。 在 这 个 领域 ， 人 们 已 经 进行 了 大 量 的 研究 ， 并 发 展 出 了 一 种 方法 来 判断 
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一 个 新 闻 题 从 技术 的 角度 来 说 是 否 能 够 归于 “难以 解决 ”这 个 类 别 。 尽 管 这 方面 的 研究 大 多 数 都 超 
出 了 本 书 的 范畴 ， 但 是 理解 它们 的 核心 思想 并 不 困难 。 我 们 将 在 这 里 介绍 它们 ， 因 为 当面 对 一 个 新 
问题 时 ， 每 个 程序 员 都 应 该 了 解 不 存在 解决 它 的 高 效 算法 的 可 能 性 。 
6.0.6.1 准备 工作 
20 世纪 最 漂亮 和 有 趣 的 智力 发 明之 一 ， 就 是 阿兰 .图 灵 在 20 世纪 30 年 代 发 明 的 “图 灵机 ”。 
它 是 一 个 简单 而 又 非常 通用 的 计算 模型 ， 足 以 描述 任意 计算 机 程序 和 设备 。 一 台 图 灵机 就 是 一 台 能 
够 读 取 输入 、 变 换 状 态 和 打印 输出 的 有 限 状 态 机 。 图 灵机 是 理论 计算 机 科学 的 基础 。 它 来 自 于 下 面 
两 个 重要 的 思想 。 
口 普遍 性 。 图 灵机 可 以 模拟 所 有 物理 可 实现 的 计算 设备 。 这 被 称 为 女 奇 - 图 灵 论 题 。 这 是 一 个 
关于 自然 世界 的 论断 且 无 法 被 证 明 (但 可 以 被 证 伪 ) 。 该 论题 成 立 的 证 据 就 是 数学 家 和 计算 
机 科学 家 已 经 发 明 的 无 数 种 计算 模型 ， 而 它们 都 已 证 明和 图 灵机 等 价 。 
口 可 计算 性 。 图 灵机 ( 或 是 任意 其 他 计算 设备 , 根据 普遍 性 可 以 得 到 ) 无 法 解决 的 问题 是 存在 的 。 
这 在 数学 上 是 正确 的 。 停 机 问题 (halting problem ) ( 任意 程序 都 无 法 保证 能 够 判定 给 定 程 
序 是 否 会 结束 ) 就 是 这 类 问题 中 的 一 个 著名 的 例子 。 
在 这 里 ， 我 们 感 兴趣 的 是 第 三 个 思想 ， 它 是 关于 计算 设备 效率 的 。 
口 扩展 的 撕 奇 -图 灵 论 题 。 在 任意 计算 设备 上 解决 某 个 问题 的 某 个 程序 所 需 的 运行 时 间 的 增长 
数量 级 都 是 在 图 灵机 上 (或 是 任意 其 他 计算 设备 上 ) 解决 该 问题 的 某 个 程序 的 多 项 式 倍数 。 
同样 ， 这 也 是 一 个 关于 自然 世界 的 论断 ， 因 为 所 有 已 知 的 计算 设备 都 能 够 通过 图 灵机 模拟 ， 只 
是 成 本 最 多 需要 增加 一 个 多 项 式 的 倍数 。 在 最 近 几 年 ， 量 子 计算 的 概念 使 得 一 些 研 究 者 开始 怀疑 扩 
展 的 丘 奇 -图 灵 论 题 的 正确 性 。 大 多 数 人 都 认为 ， 从 实践 的 角度 来 说 ， 这 个 论题 还 能 支撑 一 段 时 间 ， 
但 许多 学 者 已 经 在 努力 证 明 它 是 错误 的 。 
6.0.6.2 ”指数 级 别 的 运行 时 间 
不 可 解 性 理论 的 目的 在 于 能 够 区 别 多 项 式 时 间 内 解决 的 问题 和 在 最 坏 情况 下 (可 能 ) 需要 指数 
级 别 时 间 才 能 解决 的 问题 。 我 们 可 以 认为 指数 级 别 运 行 时 间 的 算法 在 输入 规模 为 N 时 所 需 的 时 间 
( 至少) 和 2 成 正比 ， 将 底数 2 赫 换 为 任意 的 a>1 均 可 。 我 们 一 般 认为 指数 时 间 的 算法 无 法 保证 
在 合理 的 时 间 内 解决 规模 超过 ( 例如 ) 100 的 问题 ， 因 为 无 论 计算 机 有 多 快 都 没 人 能 够 等 待 一 个 需 
要 2” 步 的 算法 ,指数 增长 级 别 使 得 科技 进步 忽略 不 计 : 一 台 超 级 计算 机 可 能 比 一 张 算盘 快 一 万 亿 倍 ， 
但 两 者 都 不 可 能 解决 需要 2 ”" 步 才能 完成 的 问题 。 有 时 ，“ 简 单 ” 问 题 和 “困难 ”问题 之 间 只 有 一 
线 之 差 。 例 如 ，4.1 节 中 学 习 的 那个 能 够 解决 以 下 问题 的 算法 。 


最 短路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 蒂 之 间 的 最 短路 径 的 长 度 
是 多 少 ? 

但 并 没有 学 习 解 决 下 面 这 个 问题 的 算法 ,但 两 者 看 起 来 本 质 上 似乎 是 一 样 的 。 

最 长 路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 七 之 间 的 最 长 路 径 的 长 度 
是 多 少 ? 


问题 的 核心 在 于 ， 据 我 们 目前 所 知 ， 从 难度 上 来 说 这 些 几乎 都 是 最 困难 的 问题 。 广 度 优先 搜索 
能 够 在 线性 时 间 内 解决 第 一 个 问题 ,但 对 于 第 二 个 问题 所 有 已 知 算法 在 最 坏 情况 下 均 需 要 指数 级 别 
的 时 间 。 后 面 框 注 的 代码 用 一 个 深度 优先 搜索 的 变种 解决 了 这 个 问题 。 它 和 深度 优先 搜索 非常 类 似 ， 
但 它 检查 了 图 中 所 有 从 s 到 的 简单 路 径 才 找到 了 最 长 的 那 一 条 。 
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public class LongestPath 
private boolean[] marked; 
private int max; 


public LongestPath(Graph G, int s，int t) 
{ 

marked = new boolean[G.VOJ]; 

disi(G oD 


5 
private nvonondfsCGrapnn Gn me nn 
if (V == Tt && 1 > max) max = 1; 


if (v == t) return; 
marked[v] = true; 
orm ww Gadnev 
if (CImarked[w]) dfs(G, w, t, i+1); 
marked[v] = false; 


) 


public int maxLength() 
{ return max; } 


找 出 图 中 的 两 个 顶点 之 间 的 最 长 路 径 的 长 度 


6.0.6.3 ”搜索 问题 

本 书 中 已 经 介绍 过 的 “高 效 ” 算 法 能 够 解决 的 问题 与 还 需要 如 大 海 捞 针 一 般 在 各 种 可 能 性 中 寻 
找 解法 的 问题 之 间 存 在 巨大 差异 ， 这 就 需要 能 够 用 一 种 简单 的 形式 模型 来 研究 这 两 类 问题 之 间 的 关 
系 。 第 一 步 就 是 要 说 明 我 们 所 研究 的 这 类 问题 。 


定义 。 如 果 一 个 问题 有 解 且 验证 它 的 解 的 正确 性 所 需 的 时 间 不 会 超过 输入 规模 的 多 项 式 ， 则 称 
这 种 问题 为 搜索 问题 。 当 一 个 算法 给 出 了 一 个 解 或 是 已 证 明 解 不 存在 时 ， 就 称 它 解 决 了 一 个 搜 
索 问 题 。 


我 们 将 在 后 面 讨论 不 可 解 性 问题 中 4 个 比较 有 趣 的 问题 。 这些 问 题 被 为 “可 满足 性 ”问题 。 现 在 ， 
要 证 明 某 个 问题 是 一 个 搜索 问题 ， 只 需 说 明 你 能 够 快速 验证 某 个 完整 的 解 的 正确 性 即 可 。 解 决 一 个 搜 
索 问 题 就 好 像 “在 稻草 堆 里 寻找 一 根 针 ” 一 样 ， 你 唯一 的 优势 只 是 在 看 见 它 的 时 候 能 够 认得 出 来 。 例 
如 ， 对 于 后 面 列 出 的 每 个 可 满足 性 问题 都 给 定 了 一 组 变量 赋值 ， 你 都 能 很 容易 地 验证 每 个 等 式 或 不 等 
式 都 是 满足 的 ， 但 是 寻找 这 样 一 组 变量 赋值 就 完全 不 同 了 。 我 们 常用 NP 描述 所 有 搜索 问题 一 一 我 
们 会 在 6.0.6.6 节 说 明 这 个 名 字 的 由 来 。 


定义 。NP 是 所 有 搜索 问题 的 集合 。 


NP 准确 描述 了 所 有 科学 家 、 工 程 师 以 及 应 用 程序 员 渴望 的 能 够 保证 在 合理 时 间 范 围 内 解决 的 
所 有 问题 的 集合 。 912 
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部 分 搜索 问题 。 

口 线性 等 式 可 满足 性 。 给 定 一 组 由 个 变量 表示 的 M 个 线性 等 式 ， 找 出 一 组 满足 所 有 等 式 的 

变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 线性 不 等 式 可 满足 性 ( 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 YX 个 变量 表示 的 M 个 线性 

不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 0 ~ 1 整数 线性 不 等 式 可 满足 性 (0 ~ 1 整数 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 个 
整数 变量 表示 的 M 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 0 或 1 赋值 ， 或 者 证 明 
这 样 的 赋值 不 存在 。 

口 布尔 可 满足 性 。 给 定 一 组 由 N 个 布尔 变量 以 及 和 /或 运算 符 表 示 的 M 个 等 式 ， 找 出 一 组 满 
足 所 有 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
6.0.6.4 其 他 类 型 的 问题 
对 于 构成 了 不 可 解 性 研究 的 基础 的 问题 集合 ， 搜 索 问 题 的 概念 是 多 种 描述 它 的 方法 之 一 。 其 他 

方法 包括 决定 性 问题 ( 解 是 否 存 在 ? ) 以 及 最 优化 问题 ( 最 优 解 是 什么 ? ) 。 例 如 ，6.0.6.2 节 中 的 

最 长 路 径 长 度 问题 就 是 一 个 最 优化 问题 而 非 一 个 搜索 问题 。 ( 给 定 一 个 解 ， 无 法 验证 它 就 是 最 长 路 

径 的 长 度 。) 这 个 问题 的 搜索 版 本 是 找到 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 ( 该 问题 也 叫做 汉 密 

尔 顿 路 径 问题 ) 。 这 个 问题 的 决定 性 版 本 是 询问 是 否 存 在 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 套 汇 

问题 、 布 尔 可 满足 性 问题 和 汉密尔顿 路 径 问 题 都 是 搜索 问题 ; 询问 这 些 问题 是 否 有 解 是 决定 性 问题 ; 

而 最 短 或 最 长 路 径 问 题 、 最 大 流量 问题 和 线性 规划 问题 都 是 最 优化 问题 。 虽 然 它 们 在 技术 上 并 不 等 

价 ， 但 搜索 问题 、 决 定性 问题 和 最 优化 问题 一 般 都 能 够 相互 归 约 (请 见 练 习 6.58 和 练习 6.59 ) 且 我 

们 的 主要 结论 同时 适用 于 这 三 种 类 型 的 问题 。 

6.0.6.5 简单 的 搜索 问题 

NP 的 定义 并 没有 提 到 寻找 解 的 难度 ， 而 只 是 和 解 的 验证 有 关 。 构 成 不 可 解 性 研究 的 基础 的 第 

二 类 问题 的 集合 被 称 为 P， 它 和 寻找 解 的 难度 有 关 。 在 这 个 模型 下 ， 算 法 的 效率 是 将 输入 编码 所 需 

的 比特 数量 的 函数 。 


定义 。P 是 能 够 在 多 项 式 时 间 内 解决 的 所 有 搜索 问题 的 集合 。 


这 个 定义 暗示 着 多 项 式 时间 是 一 个 最 坏 情况 下 的 时 间 界 限 。 对 于 在 集合 P 中 的 一 个 问题 ， 必 然 
存在 一 个 算法 能 够 保证 在 多 项 式 时 间 内 解决 它 。 注 意 ， 我 们 完全 没有 指定 这 是 一 个 怎样 的 多 项 式 。 
线性 、 线 性 对 数 、 平 方 、 立 方 级 别 都 是 多 项 式 时 间 ， 因 此 这 个 定义 显然 圳 括 了 目前 已 经 学 习 的 所 有 
标准 算法 。 运 行 一 个 算法 所 需 的 时 间 取 决 于 所 使 用 的 计算 机 ， 但 扩展 的 丘 奇 - 图 灵 论 题 计 这 一 点 变 
得 无 关 紧 要 一 一 它 说 明 任 意 计 算 设备 上 的 多 项 式 时 间 的 解 都 意味 着 任意 其 他 计算 设备 上 也 存在 多 项 
式 时 间 的 解 。 排 序 问题 属于 P 是 因为 (例如 ) 插入 排序 所 需 的 时 间 与 Y 成 正比 (在 这 里 ， 线 性 对 
数 时 间 的 排序 算法 并 无 意义 ) ， 最 短路 径 问 题 、 线 性 等 式 可 满足 性 问题 以 及 其 他 许多 问题 也 是 这 样 。 
一 个 能 够 有 效 解决 某 个 问题 的 算法 足以 证 明 该 问题 属于 集合 P。 换 名 话说，P 准确 描述 了 所 有 科学 
家 、 工 程 师 以 及 应 用 程序 员 能 够 保证 在 合理 的 时 间 范 围 内 解决 的 所 有 问题 的 集合 ， 请 见 表 6.0.7 和 
表 6.0.8。 
6.0.6.6” 非 确定 性 

NP 中 的 N 表示 的 是 非 确定 性 (nondeterminism ) 。 它 的 意思 是 ， 扩 展 计算 机 能 力 的 一 种 (理论 
上 的 ) 方 法 是 赋予 它 不 确定 性 : 即 断 言 当 一 个 算法 面 对 若 干 个 选项 时 , 它 有 能 力 “ 猜 出 ”正确 的 选择 。 


在 我 们 的 讨论 中 ， 你 可 以 将 


E 确 定性 的 计算 机 上 的 一 个 算法 看 作 是 在 “猜测 ”问题 的 解 ， 然 后 验证 
这 个 解 是 否 成 立 。 在 图 灵机 中 ， 非 确定 性 只 是 定义 为 一 个 给 定 状态 和 一 个 给 定 输入 时 的 两 个 不 同 的 


后 继 状 态 ， 解 则 是 能 够 得 到 期 望 结 果 的 所 有 路 径 。 非 确定 性 也 许 只 是 一 个 数学 上 的 约 想 ， 但 它 也 可 


以 是 一 种 很 有 用 的 思想 。 例 如 ， 在 5.4 节 中 ， 我 们 将 非 确 定 怕 


表达 式 模式 匹配 算法 的 基础 就 是 有 效 模拟 一 个 非 确 定性 自动 状态 机 。 


表 6.0.7 集合 NP 中 的 问题 举例 


E 用 作 了 一 种 设计 算法 的 工具 一 一 正则 


问 题 输 入 描 述 存在 多 项 式 时 间 算 法 实 例 解 
找到 一 条 能 够 访问 所 了 时 
汉 密 尔 帆 娩 咎 7 A = 
汉密尔顿 路 径 图 G 有 项 点 的 简单 路 径 ? ><| O013 
© 3) 
分 解 质 因 数 整数 x 找到 x 的 最 大 因子 ? 97605257271 8784561 
i x—y 硅 1 
0-1 线性 不 等 式 “ 旺 爷 全 0 入。 找 出 满足 所 有 不 等 式 2xz<<2 加 
可 汪 足 4 < 4 变量 赋 
可 满足 性 个 不 等 式 的 变量 赋值 2 了 -0 
集合 人 
人 中 的 所 有 请 见 表 6.0.8 


问 题 输 入 


表 6.0.8 集合 P 中 的 问题 举例 


最 短 st- 路径 ”图 G 


顶点 s、+ 
排序 数组 a 
线性 等 式 可 满 ”YX 个 变量 
线性 不 等 式 可 ”个 变量 
满足 性 M 个 不 等 式 


6.0.6.7 ”主要 问题 


描 述 存在 多 项 式 时 间 算 法 实 例 解 
找 出 从 s 到 1 的 ”广度 优先 搜索 (BFS) 5~、、 0-3 
最 短路 径 IE 

@ On 
将 a 按 升序 排列 ”归并 排序 2.8 8.5 4.1 1.3 3021 
找 出 满足 所 有 等 ”高 斯 消 元 法 Xty=1.5 X=0.5 
式 的 变量 赋值 2x—y=0 j=1 
找 出 满足 所 有 不 ” 椭 球 法 Xxy 1.5 x=2.0 
等 式 的 变量 赋值 2x-z 入 0 y=1.5 
Xty 宇 3.5 2=4.0 
2 之 4.0 


非 确 定性 十 分 强大 ， 严 肃 认 真 地 考虑 它 似乎 有 点 荒唐 。 为 什么 要 花心 思 用 一 种 想象 中 的 工具 将 


困难 的 问题 变 得 看 起 来 简单 呢 ? 答案 是 ， 虽 然 非 确 定性 看 起 来 十 分 强大 ， 但 没 人 能 够 证 明 它 能 够 帮 
助 我 们 解决 任何 问题 ! 换 名 话说, 还 没有 人 能 够 找到 任何 一 个 问题 六 
至 证 明 存在 这 样 一 个 问题 ) 。 


这 就 留 下 了 一 个 有 待 解决 的 问题 : 


P=NP 成 立 吗 ? 


F 证 明 它 属于 NP 而 不 属于 P (其 


这 个 问题 是 由 K.G6del 在 1950 年 写 给 J von Neumann 的 一 封 著 名 的 信 中 第 一 次 提出 的 ， 并 且 完 全 
难 倒 了 所 有 数学 家 和 计算 机 科学 家 。 陈 述 这 个 问题 的 其 他 方式 说 明了 一 些 它 的 基本 性 质 。 


口 是 否 存在 任何 难以 解决 的 搜索 问题 ? 


口 如 果 能 构造 一 种 非 到 


定性 的 计算 设备 ， 能 够 更 快 地 解决 某 些 搜索 问题 


吗 ? 


无 法 解答 这 些 问 题 令 人 们 极度 愧 恼 , 因为 许多 重要 的 实际 问题 都 属于 NP 但 却 不 一 定 属于 P。 (已 
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知 的 最 快 确定 性 算法 需要 指数 级 别 的 时 间 。 ) 如 果 能 够 证 明 它 不 属于 P， 就 可 以 放弃 寻找 高 效率 的 
算法 ,既然 无 法 证 明 , 那么 就 存在 发 现 某 种 高 效 算法 的 可 能 性 。 事实 上 , 就 我 们 目前 的 知识 水 平 而 言 ， 
NP 中 的 每 个 问题 都 可 能 存在 某 种 高 效 的 算法 , 这 意味 着 可 能 还 有 许多 高 效 的 算法 没有 被 人 们 发 现 。 


但 实际 上 没 人 相信 P=NP， 
域 有 待 证 明 的 最 重要 的 研究 课题 。 
6.0.6.8 多 项 式 时 间 问 题 的 相互 归 约 


j 且 很 大 一 部 分 人 都 在 努力 证 明 该 等 式 不 成 立 。 它 仍然 是 计算 机 科学 领 


6.0.5 节 通 过 说 明 用 以 下 三 个 步 又 可 以 解决 问题 A 的 任意 实例 , 证 明了 问题 A 是 可 以 归 约 为 问 


题 B 的 : 
口 将 A 的 实例 归 约 为 B 的 实例 ; 
口 解决 B 的 实例 ; 


布尔 可 满足 性 问题 
(x1 or x or x3) and 
(x1 orx’ or x3) and 
(x1 orx’ orxs3)and 
(x1 or x or x;) 


0-1 整 数 线性 不 等 式 可 满足 性 问题 的 构造 


当 且 仅 当 第 一 个 cl 二 1 -xl 
子 句 是 可 满足 时 ， 
的 值 为 ] 1 
Cl1 之 X3 
和 (1 人 + 入 二 入 


OX 
CO 二 1-x2 
CC 二 X3 
OXIt+ (1-x)+ x 


六 区 | 而 

G 二 1 -32 

G 三 1-X3 
Gl x) +t 1X7+ (1=%3) 


G1 -Xl 
Gl- x 
GX3 
GS(1-x) + (1-x) + x 


SO 
当 且 仅 当 所 有 < 
< 一 变量 的 值 均 为 1 
时 5 的 值 为 1 
SO 
SCi+ 太 + 二 3 


SCO 


图 6.0.29 ”将 布尔 可 满足 性 问题 归 约 为 0-1 整 
数 线性 不 等 式 可 满足 性 问题 的 示例 


口 将 B 的 实例 的 解 归 约 为 A 的 实例 的 解 。 


只 要 能 够 有 效 完 成 归 约 ( 并 解决 问题 B) ,我 
们 就 能 有 效 的 解决 问题 A。 在 这 里 ， 为 了 效率 我 们 
采用 了 能 够 想象 的 最 弱 的 定义 : 为 了 解决 问题 A 最 
多 需要 解决 多 项 式 个 问题 B 的 实例 ， 且 问题 归 约 最 
多 只 需 多 项 式 时 间 。 在 这 种 情况 下 ， 我 们 称 A 能 够 
在 多 项 式 时 间 内 归 约 为 B。 在 前 文中 ， 我 们 使 用 问 
题 的 归 约 介绍 了 各 种 问题 解决 模型 ， 使 得 高 效 算法 
所 能 解决 的 问题 范围 大 大 拓展 了 。 现 在 ， 我们 要 从 
另 一 个 角度 使 用 问题 的 归 约 ， 即 用 它 来 证 明 一 个 问 
题 是 难以 解决 的 。 如 果 一 个 问题 A 已 知 是 难以 解决 
的 ， 且 A 在 多 项 式 时 间 内 能 够 归 约 为 问题 B， 那 么 
问题 B 必然 也 是 难以 解决 的 。 和 否则 ， 问 题 B 的 一 
个 多 项 式 时 间 的 解 必然 也 能 归 约 为 问题 A 的 一 个 多 
项 式 时 间 内 的 解 。 


命题 L。 布 尔 可 满足 性 问题 能 够 在 多 项 式 时 间 
肉 归 约 为 0-1 整数 线性 不 等 式 可 满足 性 问题 。 


证 明 。 对 于 给 定 的 一 个 布尔 可 满足 性 问题 的 实例 ， 
定义 一 组 不 等 式 ， 其 中 每 个 布尔 变量 都 对 应 着 一 
个 0-1 变量 ， 每 个 布尔 子 句 也 对 应 着 一 个 0-1 变 
量 ,如 图 6.0.29 所 示 。 若 布尔 变量 的 值 为 真 ( true ) 
则 对 应 的 整数 变量 的 值 为 1， 值 为 假 (false ) 
时 对 应 的 整数 变量 的 值 为 0。 这 样 ， 我 们 就 能 够 
将 0-1 整数 线性 不 等 式 可 满足 性 问题 的 解 归 约 为 
布尔 可 满足 性 问题 的 解 。 


推论 。 如 果 可 满足 性 问题 是 难以 解决 的 ， 那么 整数 线性 规划 问题 也 是 难以 解决 的 。 


的 工作 为 起 点 ， 


即使 我 们 并 没有 精确 定义 难以 解决 ， 关 于 解决 这 两 种 问题 的 难度 关系 的 陈述 仍然 是 有 意义 的 。 
在 这 里 ，“ 难 以 解决 ”的 意思 是 “不 包含 在 集合 P 


集合 P 中 的 问题 。 以 R.Karp 在 1972 年 作出 的 开创 公 


PhP”。 一 般 来 说 ， 我 们 用 不 可 解 来 表示 不 包含 在 


些 研究 者 已 经 通过 这 种 归 约 


的 方式 证 明了 成 百 上 千 种 各 个 应 用 领域 的 问题 都 是 相关 的 。 此 外 ， 这 种 关系 的 内 涵 远 比 两 个 单独 的 
问题 之 间 的 联系 更 丰富 ， 下 面 我 们 将 说明 这 个 概念 。 


6.0.6.9 ”NP- 完全 性 


许多 问题 都 属于 NP 但 可 能 并 不 属于 P。 也 就 是 说 , 我们 可 以 轻易 地 验证 任意 给 定 的 解 是 否 有 效 ， 
但 即使 投入 了 许多 努力 ， 也 未 能 开发 出 一 个 有 效 的 算法 来 寻找 问题 的 解 。 令 人 惊讶 的 是 ， 所 有 这 些 
问题 都 有 一 个 额外 的 性 质 ， 令 人 信服 地 说 明了 PANP: 


定义 。 若 NP 中 的 所 有 问题 都 能 在 多 项 式 时 间 内 归 约 为 搜索 问题 A, 那么 则 称 问题 A 是 NP- 完 全 的 。 


这 个 定义 使 得 我 们 可 以 将 “难以 解决 ”的 定义 升级 为 “除非 P=NP 否则 无 解 ”。 如 果 任 意 NP- 
完全 问题 能 够 通过 一 台 有 限 自动 机 在 多 项 式 时 间 内 解决 ,那么 NP 中 的 所 有 问题 都 将 得 到 解决 ( 即 
P=NP ) 。 也 就 是 说 ， 所 有 研究 者 对 于 寻找 这 些 问 题 的 高 效 算法 的 失败 从 整体 上 来 说 是 证 明 P=NP 的 
失败 。NP- 完全 问题 的 意思 是 ， 我 们 不 期 望 能 够 找到 多 项 式 时 间 的 算法 。 大 多 数 实际 的 搜索 问题 都 


已 知 是 P 或 NP- 完全 问题 。 
6.0.6.10 “Cook-Levin 定理 


通过 归 约 ， 一 个 问题 的 NP- 完全 性 也 意味 着 另 一 个 问题 的 NP- 完全 性 。 但 归 约 在 一 种 情况 下 是 
不 可 用 的 : 如何 证 明 第 一 个 问题 是 NP- 完全 的 ? S.Cook 和 L.Levin 在 20 世纪 70 年 代 早期 分 别 独立 


地 完成 了 这 项 工作 。 


命题 M〈Cook-Levin 定理 ) 。 布 尔 可 满足 性 问题 是 NP- 完全 的 。 


极 大 简化 证 明 。 目 标 是 证 明 如 果 布 尔 可 满足 性 
所 有 问题 都 能 在 多 项 式 时 间 内 解决 。 非 确定 型 
明 的 第 一 步 是 用 与 布尔 可 满足 性 问题 中 一 
可 以 将 NP 中 的 每 个 问题 (它们 都 可 以 表示 为 非 确 定型 
的 某 个 实例 ( 该 程序 的 多 辑 表 达 式 形式 ) 
拟 图 灵机 在 给 定 的 输入 下 运行 给 定 的 程序 ， 因 


TT 


关系 起 来 。 这 相 


问题 存在 多 项 式 时 间 的 算法 ， 那 么 NP 集合 中 的 
图 灵机 是 可 以 解决 NP 中 的 任意 问题 的 ， 因 此 证 
音 的 逻辑 表达 式 描述 非 确 定型 图 灵机 的 所 有 特性 。 这 
图 灵机 上 的 一 个 程序 ) 和 可 满足 性 问题 
# ， 可 满足 性 问题 的 解 本 质 上 等 价 于 模 
此 它 将 产生 给 定 问 题 的 某 个 实例 的 解 。 这 份 证 明 


的 其 他 细节 已 经 远 远 超出 了 本 书 的 范畴 。 幸 运 的 是 ， 我 们 只 需要 证 明 这 一 个 命题 即 可 : 使 用 归 


约 来 证 明 NP- 完全 性 要 简单 的 多 。 


Cook-Levin 定理 ， 再 加 围绕 各 种 NP- 完全 问题 所 进行 的 成 千 上 万 次 多 项 式 时间 内 的 归 约 ,使 我 


们 得 到 了 两 种 可 能 性 : 或 者 P=NP， 即 不 存在 任何 不 可 
式 时 间 内 得 到 解决 ) ; 或 者 P 六 NP， 即 存在 不 可 解 的 


内 得 到 解决 ) ， 请 见 图 6.0.30。NP- 完全 问题 在 实际 应 用 


秀 算法 的 意愿 非常 强烈 。 所 有 这 些 问 题 


P 经 常 出 现 ， 


解 的 搜索 问题 ( 所 有 搜索 问题 都 能 够 在 多 项 
鼻 索 问题 ( 某 些 搜索 问题 无 法 在 多 项 式 时 间 


因此 人 们 找 出 解决 它们 的 优 


目前 都 还 未 找到 有 效 的 算法 显然 强烈 说 明了 了 P 和 关 NP， 大 多 


数 研 究 者 也 相信 这 一 点 。 但 从 另 一 方面 来 说 ， 也 没 人 能 够 证 明 这 些 问题 中 的 任意 一 个 不 属于 P， 这 
也 同样 是 反方 向 的 一 个 有 力 证 据 。 无 论 P=NP 是 否 成 立 ， 目 前 的 实际 状态 是 所 有 NP- 完全 问题 的 已 
知 最 佳 算法 在 最 坏 情况 下 都 需要 指数 级 别 的 时 间 。 
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6.0.6.11 ”问题 的 分 类 P = NP 


要 证 明 一 个 搜索 问题 存在 于 集合 P 中 ,我 们 需要 展示 一 个 解决 它 


的 多 项 式 时 间 算 法 ， 这 或 许可 以 通过 将 它 归 约 为 一 个 已 知 P 类 问题 。 
要 证 明 NP 中 的 一 个 问题 是 NP- 完全 的 ， 我 们 需要 证 明 某 个 已 知 的 
NP- 完全 问题 能 够 在 多 项 式 时 间 内 归 约 为 它 : 也 就 是 说 ， 如 果 一 个 新 
问题 的 多 项 式 时 间 的 算法 能 够 用 于 解决 NP- 完全 问题 ， 那 么 它 也 就 能 P = NP 

解决 NP 中 的 所 有 问题 。 我 们 已 经 用 这 种 方法 证 明了 成 千 上 万 的 问题 NP 


都 是 NP- 完全 问题 ， 就 像 在 命题 中 对 整数 线性 规划 问题 进行 的 转 (°) 
换 那 样 。 后 面 列 出 了 一 些 有 代表 性 的 问题 ， 它 包含 了 Karp 提出 的 若 


干 问题 ,但 这 只 是 已 知 的 NP- 完全 问题 中 极 小 的 一 部 分 。 将 新 问题 归 
人 容易 解决 (属于 集合 P ) 或 者 难以 解决 (NP- 完全 ) 的 类 别 可 能 会 


出 现 以 下 几 种 情况 。 图 6.0.30 ”问题 集 的 两 种 
口 显而易见 。 例 如 ， 著 名 的 高 斯 消 元 法 就 能 够 证 明 线性 等 式 可 可 能 情况 


满足 性 问题 属于 集合 P。 
口 需要 一 些 技巧 但 并 不 困难 。 例 如 ， 给 出 一 份 类 似 于 命题 LL 的 证 明 需 要 一 些 经 验 和 实践 ,但 
理解 并 不 困难 。 

口 非常 有 挑战 性 。 例 如 ， 线 性 规划 问题 曾经 长 期 分 类 不 明 ， 但 Khachian 的 椭 球 法 证 明了 线性 规 
划 问 题 属 于 集合 P。 


方案 ) 和 分 解 质 因数 问题 (给 定 一 个 整数 ， 找 出 它 的 一 个 非 平 凡 因 数 ) 仍然 是 无 解 的 。 
目前 这 仍然 是 一 块 内 容 丰 富 、 研 究 活路 的 领域 ， 每 年 都 会 产生 数 千 篇 论文 。 从 后 面 项 目 列 出 的 


最 后 几 个 条 目 可 以 看 出 ， 它 涉及 了 科学 界 的 各 个 领域 。 我 们 在 NP 的 定义 中 包含 了 科学 家 、 工 程 师 
和 应 用 程序 员 所 渴望 解决 的 所 有 问题 一 一 这 些 问 题 显然 需要 分 类 ! 


一 些 著 名 的 NP- 完全 问题 。 
口 布尔 可 满足 性 。 给 定 一 组 由 个 布尔 变量 表示 的 M 个 等 式 ， 找 出 一 组 满足 所 有 等 式 的 变量 
赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 整数 线性 规划 。 给 定 一 组 由 N 个 整数 变量 表示 的 MM 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 
式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 

口 负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 以 及 一 个 时 间 上 限 7， 应 该 如 何在 两 个 相同 的 处 
理 器 上 分 配 任务 以 在 时 间 了 之 内 完成 所 有 任务 ? 

口 顶点 覆盖 。 给 定 一 幅 图 和 一 个 整数 C， 找 出 一 个 含有 C 个 顶点 的 集合 ， 保 证 图 中 的 每 条 边 
都 至 少 依附 于 集合 中 的 一 个 顶点 。 


口 汉密尔顿 路 径 。 给 定 一 幅 图 ， 找 出 一 条 正好 只 经 过 每 个 顶点 一 次 的 简单 路 径 ， 或 者 证 明 这 种 
路 径 不 存在 。 


口 蛋白 质 折 个。 给 定 能 量 级 别 M， 找 出 一 种 蛋白 质 的 某 种 三 维 折 双 结构 ， 其 含有 的 潜在 能 量 
小 于 M。 

口 伊 辛 模 型 。 给 定 一 个 三 维 晶 格 伊 辛 模型 和 一 个 能 量 阔 值 妃 ， 是 否 存在 一 个 自由 能 小 于 五 的 
子 图 ? 

口 给 定 收益 的 风险 投资 组 合 。 给 定 一 组 风险 投资 渠道 与 一 个 总 成 本 以 及 一 个 给 定 收益 。 每 项 投 
资 都 有 一 定 的 风险 值 ， 风 险 的 总 国 值 为 M。 找 到 一 种 分 配 投资 的 方法 使 得 总 风险 小 于 M。 


6.0.6.12 ”处 理 NP- 完全 性 


在 实践 中 ， 我 们 必须 为 这 些 各 种 各 样 的 问题 找到 某 种 解决 办 法 ， 


因此 人 们 对 解决 这 些 问题 非常 


感 兴趣 。 我 们 不 可 能 在 这 一 小 段 文字 中 说 明 这 个 庞大 的 研究 领域 ,但 我 们 可 以 简要 描述 一 下 人 们 已 
经 尝试 过 的 各 种 手段 。 一 种 方法 是 ,修改 问题 并 寻找 一 种 “近似 ”算法 来 给 出 接近 但 并 非 最 佳 的 解 。 


例如 ， 欧 几 里 得 旅行 销售 员 问 题 (traveling salesman problem ) ,我 


们 很 容易 找到 一 个 长 度 小 于 最 优 


路 线 的 两 售 的 解 。 但 不 过 的 是 ， 在 寻找 更 好 的 近似 时 ， 这 种 方法 并 不 足以 绕 开 NP- 完全 性 。 第 二 种 


方法 是 ,给 出 一 种 能 够 有 效 解决 实际 应 用 中 所 出 现 的 问题 的 实例 算 
这 种 算法 仍然 是 无 法 找到 问题 的 解 。 这 种 方法 最 著名 的 例子 是 解决 


法 ， 但 对 于 最 坏 情况 下 的 输入 ， 
整数 线性 规划 问题 的 程序 ， 它 们 


是 数 十 年 来 解决 无 数 工业 应 用 中 的 大 量 最 优化 问题 的 主力 军 。 尽管 它们 有 可 能 需要 指数 级 别 的 时 间 ， 


但 实际 应 用 中 的 输入 数据 也 显然 不 是 最 坏 情况 下 的 输入 。 第 三 种 方 


法 是 , 使 用 一 种 叫做 “回溯 法 ” 


的 技术 来 避免 检查 所 有 可 能 的 解 ， 以 期 找到 尽 可 能 “高 效 ” 的 指数 级 别 算法 。 最 后 ， 计 算 机 科学 的 


理论 并 没有 提 到 多 项 式 时 间 和 指数 时 间 之 间 的 一 个 相当 大 的 空 档 。 
正比 的 算法 吗 ? 


存在 运行 时 间 与 Neey 以 及 2VX 成 


NP- 完全 性 触及 了 本 书 中 我 们 所 研究 过 的 所 有 应 用 领域 : NP- 完全 问题 会 出 现在 初级 的 编程 问 
题 、 排 序 和 查找 、 图 处 理 、 字 符 串 处 理 、 科 学 计算 、 系 统 编程 、 运 筹 学 以 及 所 有 能 够 想到 的 需要 计 
算 的 地 方 。NP- 完全 性 理论 对 实际 生产 最 重要 的 贡献 在 于 它 给 出 了 一 种 方法 来 鉴别 来 自 于 这 些 广泛 
领域 的 一 个 新 问题 是 “容易 ”还 是 “困难 ” 呢 。 如 果 有 人 找到 了 一 种 解决 新 问题 的 有 效 方法 ， 那 么 


它 显 然 就 没什么 难度 了 。 如 果 找 不 到 ,那么 要 是 能 够 证 明 该 问题 是 


NP- 完全 的 ， 这 就 说 明 找到 一 个 


高 效 算法 基本 上 是 不 可 能 的 。 ( 因此 或 许 应 该 尝试 另 一 种 思路 。 ) 本 书 中 已 经 研究 过 的 所 有 高 效 算 


法 说 明 我 们 已 经 学 习 了 自 欧 几 里 得 以 来 的 多 种 高 效 的 计算 方法 ， 但 
们 还 有 很 长 的 路 要 走 。 


图 练习 : 碰撞 模拟 


NP- 完全 性 理论 也 说 明 事 实 上 人 


6.1 根据 正文 完成 predictCollisions() 和 Particle 的 实现 。 决 定 一 对 刚性 球体 进行 弹性 碰撞 后 的 
运动 状态 需要 3 个 公式 : (a) 动量 守恒 ，(b) 动能 守恒 ，(c) 碰撞 时 ， 相 互 作用 力 和 碰撞 点 的 切面 垂直 


( 假设 没有 摩擦 力 和 自 旋 ) 。 更 多 细节 请 见 本 书 的 网 站 。 


6.2 ”开发 一 个 版 本 的 Co11isionSystem、Particle 和 Event 类 ， 使 之 能 够 处 理 多 个 粒子 的 相互 碰撞 。 


在 模拟 台球 比赛 的 开 球 时 这 是 非常 重要 的 。 (这 道 习题 很 难 ! ) 
6.3 ”开发 一 个 三 维 版 本 的 Co11isionSystem、Particle 和 Event 类 。 


6.4 尝试 将 大 片区 域 分 割 为 长 方形 的 小 格 ， 并 在 一 种 新 的 事件 类 型 中 仅 预 测 某 个 粒子 在 某 一 时 刻 和 相 邻 


的 9 个 方 格 中 的 所 有 粒子 的 碰 


人 


童 。 用 这 种 方法 改进 Co11isionSystem 的 simulate() 方法 的 性 能 。 


这 种 方法 减少 了 需要 计算 的 预测 碰撞 数量 ， 代 价 是 需要 监视 所 有 粒子 在 方 格 之 间 的 运动 。 


6.5 在 CollisionSystem 中 引入 粹 的 概念 并 用 它 验 证 (信息论 中 的 ) 


经 典 结论 。 


6.6 布朗 运动 。1827 年 ， 植 物 学 家 罗伯特 ' 布朗 在 用 显微镜 观察 到 温和 水 中 的 野生 花粉 颗粒 时 ， 发 现 它 
们 在 进行 无 规则 的 运动 。 这 种 运动 后 来 被 称 为 布朗 运动 。 人 们 讨论 了 这 种 现象 ,但 没 人 能 够 给 出 令 
人 信服 的 解释 ， 直 到 爱 因 斯 坦 在 1905 年 在 数学 上 说 明了 这 个 问题 。 爱 因 斯 坦 的 解释 是 ， 花粉 颗粒 
的 运动 是 由 无 数 微小 的 分 子 和 花粉 粒子 相 撞 造成 的 。 请 用 模拟 来 说 明 这 个 现象 。 


6.7 温度。 为 Particle 类 添加 一 个 temperature() 方法 ， 返回 粒子 的 质量 和 速度 的 平方 除 以 dks 的 商 


之 积 ， 其 中 空间 维 数 4=2，Boltzmann 常数 f=1.3806488 x 102。 


系统 的 温度 是 所 有 粒子 的 这 些 量 
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6.8 


6.9 


6.10 


6.11 
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的 平均 值 。 为 Co11isionSystem 添加 一 个 temperature() 方法 , 周期 性 采集 温度 数据 并 绘 成 图 表 ， 
检查 温度 是 否 恒 定 。 
Maxwell-Boltzmann。 刚 性 球体 模型 中 的 所 有 粒子 的 速度 分 布 遵循 Maxwell-Boltzmann 分 布 ( 假设 系 
统 已 经 被 加 热 且 粒子 的 质量 足以 忽略 量子 力学 效应 ) ， 在 二 维系 统 中 又 被 称 为 Rayleigh 分 布 。 分 布 
的 形状 取决 于 温度 。 编 写 一 个 方法 计算 粒子 速度 的 直方 图 并 在 各 种 温度 下 测试 它 。 
任意 形状 。 分 子 的 移动 速度 非常 快 (超过 喷气 式 飞机 ) 但 扩散 却 很 慢 ， 因 为 它们 会 互相 碰撞 并 因此 
改变 方向 。 扩 展 模 型 ， 将 两 个 容器 用 一 根 管道 相连 ， 容 器 中 分 别 含 有 两 种 不 同类 型 的 粒子 。 模 拟 粒 
子 的 运动 并 以 时 间 的 函数 测量 每 个 容器 中 每 种 类 型 的 粒子 的 比例 。 

回 退 。 在 某 次 模拟 结束 后 ， 将 所 有 速度 变 为 相反 的 方向 并 继续 模拟 系统 中 的 运动 ， 它 应 该 能 够 回 
到 最 初 的 状态 ! 测量 系统 的 最 终 状态 和 初始 状态 的 差异 来 估计 四 舍 五 人 造成 的 误差 。 

压强 。 为 Particle 类 添加 一 个 pressure0Q 方法 来 测量 大 量 粒子 和 墙 体 碰撞 造成 的 压强 。 系 统 自 
压强 为 所 有 粒子 的 冲击 力 之 和 。 为 Co11isionSystem 类 添加 一 个 pressure 0) 方法 并 编写 一 个 
例 验 证 等 式 pv=nRT。 

基于 索引 优先 队列 的 实现 。 开 发 一 个 版 本 的 Co11isionSystem， 使 用 索引 优先 队列 来 保证 优先 队 
列 的 长 度 最 多 与 粒子 数量 呈 线 性 关系 〈 而 非 平方 级 别 或 者 更 糟 ) 。 
优先 队列 的 性 能 。 使 用 优先 队列 ， 在 多 种 温度 下 测试 Pressure 类 来 定位 计算 的 瓶 颈 。 如 果 可 以 ， 
尝试 切换 到 男 一 种 不 同 的 优先 队列 实现 ， 在 高 温 下 获取 更 好 的 性 能 。 


Te 


ea 


| 练习 : B- 树 
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假设 在 一 棵 三 层 树 中 ， 总 共 可 以 在 内 存 中 保存 a 条 链接 。 每 个 页 中 可 以 保存 5 ~ 22 条 指向 内 部 结 
点 的 链接 和 c ~ 2c 条 指向 外 部 结 点 中 的 链接 。 在 这 样 一 棵 树 中 最 多 可 以 含有 多 少 个 项 (作为 a、b、 
c 的 函数)? 
开发 一 个 Page 的 实现 ,将 B- 树 的 结 点 表示 为 一 个 BinarySearchST 类 的 对 象 。 

扩展 BTreeSET 来 实现 能 够 关联 键 和 值 的 BTreeST 类 ， 并 完整 支持 有 序 符号 表 API， 包 括 min()、 
max()、floor()、ceiling()、deleteMin()、deleteMax()、select()、rank0 方法 以 及 接受 
两 个 参数 的 size() 和 get 0) 方法 。 

编写 一 个 程序 ， 使 用 StdDraw 将 B- 树 的 生长 过 程 可 视 化 ， 如 同 正 文 描述 的 方式 一 样 。 
在 一 个 有 缓存 的 典型 系统 中 ， 估 计 对 B- 树 的 $ 次 随机 查找 中 ， 每 次 查找 的 平均 探查 次 数 。 缓 存 可 
以 将 了 个 最 近 访 问 的 页 保存 在 内 存 中 (因此 无 需 探 查 ) 。 假设 $S 远 大 于 7。 

网 络 搜索 。 开 发 一 个 Page 类 的 实现 ， 为 了 索引 网 页 ， 用 B- 树 的 结 点 表示 网 页 中 的 文本 。 用 一 个 
文件 表示 搜索 的 关键 字 。 从 标准 输入 接受 被 索引 的 网 页 。 为 了 控制 规模 ， 接 受命 令 行 参数 m 并 
将 内 部 结 点 的 数量 限制 在 10” 内 。 (在 使 用 较 大 的 m 前 请 联系 系统 管理 员 。) 使 用 一 个 mm 位 的 
数字 来 表示 内 部 结 点 。 例 如 ， 当 mm 为 4 时 ， 结 点 名 可 以 是 BTreeNode0000、BTreeNode0001、 
BTreeNode0002 等 。 在 页 中 保存 成 对 的 字符 串 。 向 API 中 添加 一 个 close 0) 操作 来 排序 并 写 入 数 
据 。 为 了 测试 实现 ， 尝 试 在 你 的 学 校 的 网 站 上 搜索 你 和 朋友 的 名 字 。 

B*- 树 。 在 B- 树 中 启发 式 地 分 裂 兄 弟 结 点 : 当 某 个 结 点 含有 M 个 条 目 并 需要 分 裂 时 ， 将 它 和 它 
的 一 个 兄弟 结 点 合并 。 如 果 该 兄弟 结 点 只 含有 k 个 条 目 且 k<M-1， 可 以 重新 分 配 并 使 得 两 者 都 只 
含有 CM+A) /2 个 条 目 。 否则 , 我 们 创建 一 个 新 结 点 并 使 3 个 结 点 中 都 只 含有 2M/3 个 条 目 。 同 时 ， 
我 们 允许 根 结 点 保存 4M13 个 条 目 ， 并 在 它 饱 和 时 将 它 分 裂 并 创建 一 个 只 含有 两 个 条 目的 新 根 结 
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点 。 找 出 在 含有 个 元 素 的 M 阶 B*- 树 中 每 次 查找 或 插入 所 需 的 探查 数 的 上 下 界限 。 将 你 的 结 

果 和 B- 树 的 相应 上 下 界 ( 请 见 命 题 B ) 进行 比较 。 实 现 B* 树 中 的 插入 操作 。 924 
编写 一 段 程序 ， 计 算 在 入 次 随机 插入 所 构造 的 一 棵 MM 阶 B- 树 中 外 部 页 的 平均 数量 。 用 合理 的 M 

入 值 运 行 你 的 程序 。 
如 果 你 的 系统 支持 虚拟 内 存 ， 设 计 并 用 实验 比较 B- 树 和 二 分 查找 在 一 张 庞大 的 符号 表 中 的 随机 查 
找 性 能 。 

对 于 你 为 练习 6.15 给 出 的 保存 在 内 存 中 的 Page 的 实现 ， 用 实验 确定 能 够 使 B- 树 在 一 张 庞 大 的 符 
号 表 中 的 使 随机 查找 操作 速度 最 快 的 M 值 。 特 别 注意 M 为 100 的 倍数 的 情况 。 
运行 实验 比较 保存 在 内 存 中 的 B- 树 〈 使 用 练习 6.23 中 确定 的 以 值 )、 线 性 探测 散 列 法 和 红 黑 树 


在 一 张 庞大 的 符号 表 中 的 随机 查找 用 时 。 925 


图 练习 : 后 绥 数 组 
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6.28 


6.29 
6.30 


按照 图 6.0.15 的 样式 给 出 由 以 下 字符 串 的 后 级 、 后 级 的 排序 、index(Q) 和 1cpQ 方法 的 返回 值 组 
成 的 表格 。 


a. abacadaba 


b.mississippi 
c. abcdefghij 
d. aaaaaaaaaa 
下 面 这 段 代码 用 于 计算 字符 串 的 所 有 后 级 ， 找 出 其 中 的 问题 。 


suffix = ""; 


for (int i = s.length(O) - 1; i >= 0; 1i--) 


suffix = s.charAt(i) + suffix; 
suffixes[i] = suffix; 


答 : 它 需 要 平方 级 别 的 时 间 和 空间 。 
有 些 应 用 需要 对 文本 进行 回环 交 位 ， 这 个 操作 会 涉及 文本 中 的 所 有 字符 。 对 于 0 到 N-1 之 间 的 i， 
长 度 为 的 文本 的 第 i 次 回环 变 位 得 到 的 是 它 的 后 N-i 个 字符 和 前 i 个 字符 相连 所 得 的 字符 串 。 
下 面 这 段 代码 用 于 计算 文本 的 所 有 回环 变 位 ， 找 出 其 中 的 问题 。 
int N = s.lengthO); 
for (int 1 = 0; i < N; i++) 

rotation[i] = s.substring(i, N) + s.substring(0, 1); 


答 : 它 需要 平方 级 别 的 时 间 和 空间 。 
设计 一 个 线性 时 间 的 算法 来 计算 给 定 文本 字符 串 的 所 有 回环 变 位 。 


答 ， 


String t =s+s; 
int N = s.lengthO; 
for Cint 1 = 0; 1 < Ni i++) 


rotation[i] = r.substring(i, i + N); 926 


按照 1.4 节 中 的 假设 ， 给 出 一 个 长 度 为 V 的 字符 串 SuffixArray 对 象 对 内 存 的 使 用 情况 。 
最 长 公共 子 字符 串 。 编 写 一 个 SuffixArray 的 用 例 LCS， 接 受 两 个 文件 名 作为 命令 行 参数 ， 读 取 
这 两 个 文本 文件 并 在 线性 时 间 内 找 出 同时 出 现在 两 个 文件 中 的 最 长 子 字符 串 。( 在 1970 年 , D.Knuth 
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猜测 这 是 不 可 能 的 。 ) 提示 : 为 字符 
个 两 者 都 不 包含 的 字符 ) 。 


-时 
个 


 s#t 创建 后 级 数组 ， 其 中 s 和 ft 是 文本 字符 串 ， 而 # 是 一 


Burrow-Wheeler 变换 。Burrow-Wheeler 交换 ( BWT ) 是 一 种 用 于 数据 压缩 算法 中 的 变换 ， 包 括 


bzip2 和 高 重 吐 量 的 基因 组 测序 等 。 编 写 一 个 SuffixArray 的 用 例 


算 BWT。 
用 一 个 N 


ipssm$pi 


是 mississippi$。 编 写 一 个 


环形 字符 
的 字典 序 
为 一 个 环 


\ 


] 以 下 方法 在 线性 时 间 内 计 


给 定 一 个 长 度 为 N 的 字符 串 ( 以 一 个 文件 结束 符 $ 结尾 ， 它 小 于 其 他 任意 字符 ) 。 使 
xNN 的 矩阵 ， 其 中 每 一 行 均 为 原文 的 一 个 不 同 的 回环 变 位 。 按 照 字典 顺序 将 所 有 行 排 
序 。Burrow-Wheeler 变换 就 是 排序 后 的 矩阵 中 最 右 侧 的 列 。 例 如 ,mississippi$ 的 BWT 是 
ssii。Burrow-Wheeler 逆 变 换 (BWI) 是 BWT 的 逆序 。 例 如 ，ipssm$pissii 的 BWI 


Me 


] 例 ， 在 线性 时 间 内 ， 为 某 个 字符 
囊 的 线性 化 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 ， 在 线性 时 间 


的 BWT 计算 它 的 BWI。 


内 找 出 它 


列 最 小 的 回环 变 位 。 这 个 问题 来 源 于 化 学 数据 库 中 的 各 种 环形 分 子 ， 每 一 种 分 子 都 表示 


形 的 字符 串 。 人 们 需要 一 种 标准 的 表示 方法 ( 最 小 的 回环 变 位 ) 使 得 用 字符 串 


环 变 位 作为 键 都 能 找到 该 分 子 。 ( 请 见 练习 6.27 和 练习 6.28。 ) 
的 最 长 子 字符 囊 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 k， 找 


重复 无 次 


出 甚 中 被 至 少 重复 了 k 次 的 最 长 子 字符 串 。 


较 长 的 重 
至 少 为 上 
k-gram 上 
的 问题 : 


其 中 入 为 


的 任意 回 


复 字 符 囊 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 L， 找 出 长 度 


的 重复 子 字符 趾 。 


率 统计 。 开 发 并 实现 一 个 抽象 数据 类 型 对 字符 串 进行 预 处 理 以 支持 高 效 回答 如 下 形式 


字符 串 的 长 度 。 


图 练习 : 最 大 流 问题 
在 含有 了 个 顶点 和 E 条 边 的 任意 st- 流量 网 络 中 ， 如 果 所 有 边 的 容量 都 是 小 于 M 的 正 整数 ， 可 能 
的 最 大 流量 值 是 多 少 ? 为 存在 和 不 存在 平行 边 的 情况 分 别 给 出 答案 。 

如 果 原 流量 网 络 在 删 去 终点 时 将 变 成 一 棵 树 , 给 出 一 个 算法 解决 这 种 流量 网 络 中 的 最 大 流 


6.39 
6.40 


6.41 


真 假 判断 


。 如 果 为 真 ， 给 出 简短 的 证 明 ; 如 果 为 假 ， 给 出 一 个 反例 。 


a. 在 任意 最 大 流 配置 中 均 不 存在 所 有 边 的 正 流 均 为 正 的 有 向 环 。 

b. 存在 一 种 不 包含 所 有 边 的 流量 均 为 正 的 有 向 环 的 最 大 流 配置 。 

c. 如 果 所 有 边 的 容量 均 不 同 ， 那 么 最 大 流量 配置 是 唯一 的 。 

d. 如 果 所 有 边 的 容量 是 一 个 等 差 数 列 ， 那 么 最 小 切 分 是 唯一 的 (remains unchanged ) 。 
e. 如 果 所 有 边 的 容量 是 一 个 等 比 数列 ， 那 么 最 小 切 分 是 唯一 的 。 

完成 命题 G 的 证 明 。 说 明 为 何 每 当 一 条 边 成 为 关键 边 时 ， 经 过 它 的 增 广 路 径 的 长 度 必然 会 加 2。 
在 互联 网 上 找 出 一 个 大 型 网 络 , 使 用 真实 数据 测试 最 大 流 算法 。 你 可 以 选择 交通 运输 网 络 ( 公路、 


铁路 或 者 


据 一 个 合 


航空 ) 、 通 信和 网 络 ( 电话 或 者 计算 机 网 络 ) 或 者 物流 配送 网 络 。 如 果 边 的 容量 不 明 ， 根 
理 的 模型 自己 添加 这 些 数据 。 编 写 一 个 程序 使 用 我 们 学 过 的 接口 根据 你 的 数据 实现 流量 


网 络 的 配置 。 如 有 需要 ， 编 写 一 个 私有 方法 清理 数据 。 


编写 一 个 


随机 网 络 生成 器 来 生成 稀 玖 网 络 ， 其 中 边 的 容量 为 0 到 2” 之 间 的 整数 。 用 一 个 


表示 容量 
个 用 例 ， 


开发 两 种 实现 : 一 种 生成 均匀 分 布 的 容量 值 ， 一 种 根据 高 斯 分 布 生成 容量 人 


“给 定 的 大 gram 出 现 了 多 少 次 ? ”每 次 查询 在 最 坏 情况 下 所 需 的 时 间 应 该 与 HogN 成 正比 ， 


量 问 题 。 


单独 的 类 
o 实现 一 


对 于 一 组 精心 选择 的 广 和 EE 值 用 两 种 分 布 方法 生成 随机 网 络 ， 这 样 你 就 可 以 使 


行 各 种 测试 了 。 


] 它 们 进 


6.42 


6.43 


6.44 


6.45 


6.46 


6.47 


6.48 


编写 一 个 程序 ， 在 平面 上 随机 生成 V 个 点 。 构 造 流 量 网 络 时 ， 对 于 每 个 点 都 将 它 和 距离 4 以 内 的 
所 有 点 相互 连接 ， 用 练习 6.41 中 的 随机 模型 设置 每 条 边 的 容量 。 
简单 的 归 约 。 编 写 FordFulkerson 的 用 例 ， 在 以 下 类 型 的 流量 网 络 中 寻找 最 大 流 配 置 。 
口 管道 没有 方向 。 
口 起 点 和 终点 的 数量 不 限 ， 也 不 限制 指向 起 点 或 是 由 终点 指出 的 边 的 数量 。 

口 容量 有 下 限 。 

口 顶点 有 流量 限制 。 

产品 分 发 。 假 设 流量 表示 城市 之 间 用 卡车 运送 的 产品 ， 边 u-v 上 的 流量 表示 某 一 天 从 u 市 运送 到 
v 市 的 产品 数量 ,编写 一 个 用 例 , 为 卡车 司机 打印 出 每 天 的 订单 ,告诉 他 们 应 该 去 哪个 城市 上 多 少 货 ， 
然后 去 哪个 城市 卸 多 少 货 。 假 设 卡车 司机 的 数量 无 限 多 上 且 对 于 任意 一 个 分 发 点 ， 所 有 货物 全 部 收 
到 了 之 后 才 会 开始 发 货 。 


就 业 安置 。 开 发 一 个 FordFulkerson 的 用 例 ， 根 据 命题 了 中 的 归 约 解决 就 业 安置 问题 。 使 用 一 张 
符号 表 将 名 字 变 为 数字 并 用 于 流量 网 络 中 。 


构造 一 系列 的 二 分 图 匹配 问题 ， 其 中 任意 增 广 路 径 算法 解决 对 应 的 最 大 流 问 题 所 使 用 的 所 有 增 广 
路 径 的 平均 长 度 与 五 成 正比 。 

St- 连通 性 。 开 发 一 个 FordFulkerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 +t， 找 出 在 G 中 使 
t 和 s 不 连通 所 需 切 断 的 最 小 边 数 。 
不 同 的 路 径 。 开 发 一 个 FordFulkerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 +t， 找 出 从 s 到 
最 多 有 多 少 条 任意 边 均 不 相同 的 路 径 。 


图 练习 : 问题 的 归 约 与 不 可 解 性 


6.49 
6.50 
6.51 
6.52 


6.53 
6.54 
6.55 


6.56 
6.57 


找到 37 703 491 的 一 个 非 平凡 因数 。 

证 明 最 短路 径 问题 可 以 归 约 为 线性 规划 问题 。 

如 果 P 对 NP， 是 否 存 在 能 够 在 We 时 间 内 解决 某 个 NP- 完全 问题 的 算法 ? 解释 你 的 回答 。 
假设 某 人 发 明了 一 种 保证 能 够 在 与 1.1" 成 正比 的 时 间 内 解决 布尔 可 满足 性 问题 的 算法 。 这 说 明 我 
们 能 够 在 与 1.1" 成 正比 的 时 间 内 解决 其 他 NP- 完全 问题 吗 ? 

一 个 能 够 在 与 1.1 成 正比 的 时 间 内 解决 整数 线性 规划 问题 的 程序 的 意义 是 什么 ? 


给 出 一 个 从 顶点 覆盖 问题 向 0-1 整数 线性 不 等 式 可 满足 性 问题 的 多 项 式 时 间 的 归 约 。 

使 用 无 向 图 中 的 汉密尔顿 路 径 问题 的 NP- 完全 性 证 明 在 有 向 图 中 寻找 汉密尔顿 路 径 的 问题 也 是 
NP- 完全 的 。 

假设 两 个 问题 都 已 知 是 NP- 完全 的 ， 这 说 明 能 够 在 多 项 式 时 间 内 将 两 者 相互 归 约 吗 ? 


假设 问题 是 NP- 完全 的 , 站 能够 在 多 项 式 时 间 内 归 约 为 问题 7， 而 且 了 也 能 在 多 项 式 时 间 内 归 
约 为 X， 那么 了 一 定 是 NP- 完全 的 吗 ? 

答 : 不 ， 因 为 了 不 一 定 属于 NP。 

假设 我 们 有 一 个 能 够 解决 布尔 可 满足 性 问题 的 确定 性 版 本 的 算法 ， 这 说 明 存 在 某 种 变量 赋值 能 够 
满足 所 有 的 布尔 表达 式 。 说 明 如 何 找到 这 种 赋值 方案 。 

假设 我 们 有 一 个 能 够 解决 顶点 履 盖 问题 的 确定 性 版 本 的 算法 ， 这 说 明 对 于 某 个 给 定 的 大 小 存在 顶 
点 履 盖 的 方案 。 说 明 如 何 解决 最 小 项 点 覆盖 问题 的 最 优化 版 本 。 
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6.60 ”解释 为 何 顶点 覆盖 问题 的 最 优化 版 本 不 一 定 是 一 个 搜索 问题 。 


6.62 


答 : 因为 并 没有 很 好 的 方法 来 验证 给 定 的 节 是 否 是 最 优 的 。 ( 尽管 我 们 可 以 用 二 分 查找 在 这 个 问 
题 的 搜索 版 本 上 找到 最 优 解 。 ) 


假设 问题 式 和 问题 了 均 为 搜索 问题 ， 且 蕊 能 够 在 多 项 式 时 间 内 归 约 为 素 我们 可 以 得 到 以 下 哪些 


结论 。 


a. 如 果 了 是 NP- 完全 的 ， 那 么 站 
b. 如 果 世 是 NP- 完全 的 ， 那么 了 


也 
巴 


是 。 
是 。 


c. 如 果 工 属于 P， 那 么 了 也 属于 了 P。 

d. 如 果 了 属于 P， 那么 下 也 属于 P。 

假设 P 关 NP， 我 们 可 以 得 到 以 下 哪些 结论 。 

a. 如 果 问 题 了 是 NP- 完全 的 ， 那 么 无 法 在 多 项 式 时 间 内 得 到 解决 。 


b. 如 果 问 题 承 展 


忆 
二 


于 NP， 那 么 工 无 法 在 多 项 式 时 间 内 得 到 解决 。 


c. 如 果 问 题 了 属于 NP 但 并 不 是 NP- 完全 的 ， 那么 可 以 在 多 项 式 时 间 内 得 到 解决 。 
d. 如 果 问 题 了 属于 P， 那 么 凶 就 不 是 NP- 完全 的 。 


SE 
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(索引 中 的 页 码 为 英文 原 书 的 页 码 ， 与 书 中 边栏 的 页 码 一 致 。) 


2-3-4 search tree ( 2-3-4 查找 树 ) ，441, 451 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
2-nodes and 3-nodes ( 2- 节点 和 3- 节点 ) ，424 
analysis of ( 2-3 查找 树 分 析 ) ，429 
height ( 高 度 ) ，429 
insertion ( 插入 ) ，425-427 
order (有 序 ) ，424 
perfect balance ( 完美 平衡 ) ，424 
and red-black BST ( 红 黑 二 又 查找 树 ) ，432 
search ( 查找 ) ，425 
2-3 tree. See 2-3 search tree ( 2-3 树 ， 见 2-3 查找 树 ) 
2-colorability problem ( 双色 问题 ) ，546 
2-dimensional array ( 二 维 数 组 ) ，19 
2-satisfiability problem ( 2- 可 满足 性 ) ，599 
2-sum problem ( 2-sum 问题 ) ，189 
3-collinear problem ( 三 点 共 线 问题 ) ，211 
3-sum problem ( 3-sum 问题 ) ，173, 190 
3-way partitioning ( 三 问 切 分 ) ，298 
3-way quicksort (三 向 快速 排序 ) ，298-301 
3-way string quicksort ( 三 向 字符 串 快 速 排序 ) ，719-723 
8-puzzle problem ( 8 字谜 题 ) ，358 
32-bit architecture ( 32 位 架构 ) ，13, 201, 212 
64-bit architecture ( 64 位 架构 ) ，13, 201 


A 


A* algorithm ( A* 算法 ) ，350 
Abstract data type ( 抽象 数据 类 型 ) ，64 
API, 65 
client (用例 ) ，88-89 
design (数据 类 型 的 设计 ) ，96-97 
implementing an (实现 一 种 数据 类 型 ) ，84-87 
multiple implementations( 实现 多 种 数据 类 型 ) ，90 
Abstract in-place merge ( 抽象 原 地 递归 ) ，270 
Accumulator data type ( 累加 髓 数据 类 型 ) ，92-93 
Actual type( 实际 类 型 ) ，134, 328 
Acyclic digraph. See Directed acyclic graph ( 无 环 有 向 图 ， 
见 Directed acyclic graph ) 


Acyclic edge-weighted digraph、( 无 环 加 权 有 向 图 ) See 
Edge-weighted DAG ( 见 Edge-weighted DAG ) 

Acyclic graph ( 无 环 图 ) ，520, 547, 576 

Adjacency list ( 邻接 表 ) 


directed graph ( 有 向 图 ) ，568-569 
edge-weighted digraph ( 加 权 有 向 图 ) ，644 
edge-weighted graph( 加 权 无 向 图 ) ，609 
undirected graph ( 无 向 图 ) ，524-525 
Adjacency matrix ( 邻接 和 矩阵 ) ，524, 527 
Adjacency set ( 邻接 集 ) ，527 
Adjacent vertex ( 邻接 顶点 ) ，519 
ADT See Abstract data type (ADT， 见 Abstract data type ) 
Algorithm ( 算法 ) 
century of ( 算法 的 世纪 ) ，853 
defined (定义 算法 ) ，4 
deterministic( 可 判定 的 ) ，4 
nondeterministic( 非 确定 性 的 ) ，914 
randomized ( 随机 的 ) ，198 
Aliasing ( 别名 
ofarrays( 数 组) ，19 
of objects ( 对象) ，69 
of substrings( 子 字 符 串 ) ，202 
All-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
All-pairs shortest paths( 任意 顶点 对 之 间 的 最 短路 径 ) ， 
656 
Alphabet data type( 字母 表 类 型 ) ，698-700 
Amortized analysis ( 均 挫 分 析 ) 
binary heap ( 二 叉 堆 ) ，320 
defined ( 均 捧 分 析 的 定义 ) ，198-199 
hash table ( 散 列 表 ) ，475 
resizing array ( 可 调整 大 小 的 数组 ) ，199 
union-find ( union-find 算法 ) ，231, 237 
weighted quick-union with path compression ( 路 径 压 缩 
的 加 权 quick-union 算法 ) ，231 
Analysis of algorithms ( 算法 分 析 ) ，172-215 
See also Propositions ( 另 见 命题 ) ; 
See also Properties ( 另 见 性 质 ) ; 
amortized analysis ( 均 摊 分 析 ) ，198-199 
big-Oh notation ( 大 O 记 法 ) ，206-207 
cost model ( 成 本 模型 ) ，182 
divide-and-conquer ( 分 治 思想 ) ，272 
doubling ratio ( 倍率 ) ，192-193 
doubling test ( 双 倍 测试 ) ，176-177 
input models ( 输入 模型 ) ，197 
log-log plot ( 对 数 图 像 ) ，176 
mathematical models ( 数学 模型 ) ，178 
memory usage ( 内 存 使 用 ) ，200-204 
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multiple parameters ( 多 个 参量 ) ，196 

observations ( 观察 ) ，173-175 

order-of-growth ( 增长 的 数量 级 ) ，179 

order-of-growth classifications( 增长 数量 级 的 分 类 ) ， 

186-188 

order-of-growth hypothesis ( 增长 数量 级 的 猜想 ) ，180 

problem size ( 问题 规模 ) ，173 

randomized algorithm ( 随机 化 算法 ) ，198 

scientific method ( 科学 方法 ) ，172 

tilde approximation ( 近似 ) ，178 

worst-case guarantee ( 对 最 坏 情 况 下 的 性 能 保证 ) ，197 
Antisymmetric relation ( 反对 称 性 ) ，247 
APIs 

Accumulator, 93 

Alphabet (字母 表 ) ，698 

Bag, 121 

BinaryStdIn, 812 

BinaryStdOut, 812 

Buffer, 170 

CC, 543 

Counter, 65 

Date, 79 

Degrees, 596 

Deque, 167 

Digraph, 568 

DirectedCycle, 576 

DirectedDFS, 570 

DirectedEdge, 641 

Draw，83 

Edge，608 

EdgeweightedDigraph，641 

EdgeWeightedGraph, 608 

FixedCapacityStack, 135 

FixedCapacityStackOfStrings, 133 

FlowEdge, 890 

FlowNetwork, 890 

GeneralizedQueue, 169 

Graph, 522 

GraphProperties, 559 

In, 41, 83 

IndexMaxPQ，320 

IndexMinPQ，320 

IntervallD, 77 

Interval2D, 77 

java.1lang.Double, 34 


java.lang.Integer, 34 


KMP, 769 

[St S11 

MathSET, 509 
Matrix, 60 

MaxPQ, 309 

MinPQ, 309 

MST, 613 

Out, 41, 83 

Page, 870 

Particle, 860 
Paths, 535 

Point2D, 77 

Queue, 121 
RandomBag，167 
RandomQueue，168 
Rational, 117 

SCC, 586 

Search, 528 

SET, 489 

SP, 644,677 

ST, 363, 366, 860, 870, 879 
Stack, 121 
StaticSETofInts, 99 
StdDraw，43 
StdIn，39 
StdOut，37 
StdRandom，30 
StdStats，30 
Stopwatch, 175 
StringSET, 754 
StringST, 730 
SuffixArray, 879 
SymbolDigraph, 581 
SymbolGraph, 548 
Topological, 578 
Transaction, 79 
TransitiveClosure, 592 
UF, 219 
VisualAccumulator, 95 


Application programming interface. See also APIS ( 应 用 程 


序 接口 ， 见 API ) 

client (用 例 ) ，28 

contract ( 契约 ) ，33 

data type definition ( 数据 类 型 定义 ) ，65 
implementation ( 实现 ) ，28 

library of static methods ( 静态 方法 库 ) ，28 


java.1lang.Math, 28 Arbitrage detection ( 套 汇 检测 ) ，679-681 
Arithmetic expression evaluation ( 算术 表达 式 求 值 )， 


java.util.Arrays, 29 128-131 


java.lang.String, 80 


Array (数组 ) ，18-21 
2-dimensional ( 二 维 数 组 ) ，19 
aliasing ( 别名 ) ，19 
as object (数组 对 象 ) ，72 
bounds checking ( 边界 检查 ) ，19 
memory usage of ( 内 存 使 用 ) ，202 
of objects ( 数组 对 象 ) ，72 
ragged ( 参差 不 齐 ) ，19 
Array resizing. See Resizing array ( 调整 数组 大 小 ， 
整 大 小 的 数组 ) 
Arrays.sort(), 29,306 
Articulation point ( 关节 点 ) ，562 
ASCII encoding ( ASCII 编码 ) ，696, 815 
Assertion ( 断言 ) ，107 
assert statement ( 断言 语句 ) ，107 
Assignment statement ( 赋值 语句 ) ，14 
Associative array ( 关联 数组 ) ，363 
Augmenting path ( 增 广 路 径 ) ，891 
Autoboxing ( 自动 装 箱 ) ，122, 214 
AVLtree ( AVL 树 ) ，452 
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Backtracking( 回溯 法 ) ，921 
Bag data type ( 背包 数据 类 型 ) ，124, 154-156 
Balanced search tree (平衡 查找 树 ) ，424-457 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
AVLtree (AVL 树 ) ，452 
B-tree (B- 树 ) ，866-874 
red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
Base case ( 最 简单 的 情况 ) ，25 
Bellman-Ford ( Bellman-Ford 算法 ) ，671-678 
Bellman, R., 683 
Bentley, J., 298, 306 
BFS. See Breadth-first search ( BFS， 见 Breadth-first search ) 
Biconnectivity (双向 连通 性 ) ，562 
Big-Oh notation (大 O 记 法 ) ，206-207 
Big-Omega notation ( 大 Omega 记 法 ) ，207 
Big-Theta notation ( 大 Theta 记 法 ) ，207 
Binary data ( 二 进 制 数据 ) ，811-815 
Binary dump (二进制 转 储 ) ，813-814 
Binary heap (二 叉 堆 ) ，313-322 
amortized analysis of ( 二 又 堆 的 均 摊 分 析 ) ，320 
analysis of ( 分 析 二 叉 堆 ) ，319 
change priority (改变 优先 级 ) ，321 
definition ( 二 叉 堆 的 定义 ) ，314 
deletion ( 删除 ) ，321 
heapsort ( 堆 排序 ) ，323-327 


insertion ( 插 人 元 素 ) ，317 
remove the maximum ( 删除 最 大 元 素 ) ，317 
remove the minimum ( 删除 最 小 元 素 ) ，321 
Tepresentation (二 又 堆 表示 法 ) ，313 
sink and swim (下 沉 和 上 浮 ) ，315-316 
Binary logarithm function ( 以 2 为 底 的 对 数 函 数 ) ，185 
Binary search ( 二 分 查找 ) ，8 
analysis of ( 二 分 查找 的 分 析 ) ，383, 391 
bitonic search ( 双 调 查找 ) ，210 
for a fraction ( 分 数 的 二 分 查找 ) ，211 
in a sorted array ( 在 有 序数 组 中 进行 二 分 查找 ) ， 
46-47, 98-99 
local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
symbol table ( 数组 符号 表 ) ，378-384 
Binary search tree ( 二 又 查找 树 ) ，396-423 
analysis of ( 二 又 查 找 树 的 分 析 ) ，403 
anatomy of ( 详解 二 又 查找 树 ) ，396 
AVLtree (AVL 树 ) ，452 
certification (认证 ) ，419 
definition〈 二 又 查找 树 的 定义 ) ，396 
delete the min/max ( 删除 最 大 键 和 删除 最 小 键 ) ，408 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，406 
height ( 树 的 高 度 ) ，412 
Hibbard deletion ( Hibbard 删除 方法 ) ，410, 422 
insertion ( 插入 ) ，400-401 
minimum and maximum ( 最 大 键 和 最 小 键 ) ，406 
nonrecursive ( 韭 递 归 ) ，417 
perfectly balanced ( 完美 平衡 的 ) ，403 
range query ( 范围 查找 ) ，412 
rank and select ( 排名 和 选择 ) ，415 
Tecursion ( 递归) ，415 
representation ( 数据 表示 ) ，397 
rotation ( 旋转 ) ，433-434 
search ( 查找 ) ，397-401 
selection and rank ( 选择 和 排名 ) ，406, 408 
symmetric order (二叉树 的 对 称 性 ) ，410 
threading ( 线性 符号 表 ) ，420 
BinaryStdIn library (BinaryStdIn 库 ) ，811-815 
BinaryStdOut library (BinaryStdOut 库 ) ，811-815 
Binary tree (二 又 树 ) 
anatomy of ( 详解 二 又 树 ) ，396 
binary heap (二 叉 堆 ) ，313 
complete (实现) ，313, 314 
external path length 〈 外 部 路 径 总 长 度 ) ，418 
heap-ordered ( 推 有 序 ) ，313 
height ( 完全 二 又 树 的 高 度 ) ，314 
inorder traversal ( 中 序 遍 历 ) ，412 
internal path length ( 内 部 路 径 长 度 ) ，412 
level-order traversal ( 按 层 遍 历 ) ，420 
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preorder traversal ( 前 序 遍历 ) ，834 Cell-probe model ( cell-probe 模型 ) ，234 
weighted extemal path length ( 加权 外 部 路 径 长 度 ) ，832 Center of a graph (图 的 中 点 ) ，559 
Binomial coefficient ( 二 项 式 系数 ) ，185 Certifcation ( 证明 ) 
Binomial distribution ( 二 项 分 布 ) ，59, 466 binary heap ( 二 叉 堆 ) ，330 
Binomial tree ( 二 项 树 ) ，237 binary search ( 二 分 查找 ) ，392 
Bipartite graph ( 二 分 图 ) ，521, 546-547 binary search tree ( 二 叉 查 找 树 ) ，419 
Birthday problem ( 生日 问题 ) ，215 minimum spanning tree ( 最 小 生成 树 ) ，634 
Bitmap ( 位 图 ) ，822 NP complexity class (NP 复杂 性 类 ) ，912 
Bitonic array ( 双 调 数组 ) ，210 red-black BST(〈 红 黑 二 又 查找 树 ) ，452 
Bitonic search ( 双 调 查找 ) ，210 search problem ( 搜索 问题 ) ，912 
Bitonic shortest paths( 双 调 最 短路 径 ) ，689 shortest paths ( 最 短路 径 ) ，651 
Blacklist filter ( 黑 名 单 过 滤 ) ，491 sorting ( 排序 ) ，246, 265 
Boerner’s theorem ( Boerner 定理 ) ，357 char primitive datatype (char 原始 数据 类 型 ) ，12, 696 
boolean primitive data type ( 布尔 型 原始 数据 类 型 ) ，12 Chazelle, B.，629, 853 
Boolean satisfiability ( 布尔 可 满足 性 ) ， 913, 920 Chebyshev’s inequality ( Chebyshev 不 等 式 ) ，303 
Boruvka, O.，628 Church-Turing thesis ( 丘 奇 - 图 灵 论 题 ) ，910 
Boruvka’s algorithm ( Boruvka 算法 ) ，629, 636 Circular linked list( 环形 链表 ) ，165 
Bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 Circular queue ( 环形 队列 ) ，169 
Bottom-up 2-3-4 tree ( 自 底 向 上 的 2-3-4 树 ) ，451 Circular rotation ( 回环 变 位 ) ，114 
Bottom-up mergesort ( 自 底 向 上 的 合并 排序 ) ，277 Classpath ( 类 路 径 ) ，66 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 Client ( 用例 ) ，28 
Boyer, R. S., 759 Closest pair ( 最 接近 的 一 对 ) ，210 
Breadth-first search ( 广度 优先 搜索 ) Collections ( 集合 ) ，120 
in a digraph ( 在 有 向 图 中 ) ，573 bag (背包 ) ，124-125 
in a graph (在 图 中 ) ，538-542 catenable( 可 连接 的 ) ，171 
break statement ( break 语句 ) ，15 deque (出 列 ) ，167 
Bridge in a graph (连通 图 中 的 桥 ) ，562 generalized queue (一 般 队 列 ) ，169 
B-tree ( B- 树 ) ，448, 866-874 priority queue( 优先 队列 ) ，308-334 
analysis of ( B- 树 分 析 ) ，871 pushdown stack ( 下 压 栈 ) ，127 
insertion (搬入 ) ，868 queue( 队列 ) ，126 
perfect balance ( 完美 平衡 ) ，868 random bag ( 随机 背包 ) ，167 
search ( 搜索) ，868 random queue ( 随机 队列 ) ，168 
Buffer data type ( 缓冲 区 数据 类 型 ) ，170 ring buffer ( 环形 缓冲 区 ) ，169 
Byte (8 bits) ( 字 节 (1 字 节 等 于 8 比特 ) ) ，200 stack( 栈 ) ，127 
byte primitive data type ( byte 原始 数据 类 型 ) ，13 steque, 167 


symbol table ( 符号 表 ) ，360-513 
trie (单词 查找 树 ) ，730-757 


@ Collision resolution ( 处 理 碰撞 冲突 ) ，458 
Combinatorial search ( 组 合 搜索 ) ，350 

Cache ( 缓存 ) ，195, 307, 327, 343, 394, 419, 423 Command-line argument ( 命令 行 参数 ) ，36 
Call a method ( 调用 方法 ) ，22 Command-line interface ( 命令 行 接口 ) 
Callback ( 回调 ) ，339. See also Interface ( 男 见 接口 ) command-line argument ( 命令 行 参数 ) ，36 
Cast ( 类 型 转换 ) ，13, 328, 346 compile a Java program ( 编译 Java 程序 ) ，10 
Catenable queue ( 可 连接 的 队列 ) ，171 piping ( 管道 ) ，40 
Ceiling function (向 上 取 整 函数 ) redirection ( 重 定向 ) ，40 

binary search tree ( 二 又 查 找 树 ) ，406 run a Java program ( 运行 Java 程序 ) ，10 

mathematical function ( 数学 范 数 ) ，185 standard input ( 标准 输入 ) ，39 

ordered array ( 有 序数 组 ) ，380 standard output ( 标准 输出 ) ，37-38 
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symbol table ( 符号 表 ) ，367 terminal window ( 终端 窗口 ) ，36 


Comma-separated-value ( 去 号 分 隔 的 值 ) ，493 
Comparable interface ( Comparable 接口 ) 
compareTo() method ( compareTo0) 方法 ) ，246-247 
Date，247 
natural order ( 自然 排序 ) ，337 
sorting ( 排序 ) ，244, 246-247 
Strinmg 353 
symbol table (〈 符号 表 ) ，368-369 
Transaction，266 
Comparator interface ( Comparator 接口 ) ，338-340 
compare() method，338-339 
priority queue ( 优先 队列 ) ，340 
Transaction，339 
compare() method ( compare() 方法 ) 
See Comparator interface ( 见 Comparator 接口 ) 
compareTo() method ( compareTo() 方法 ) 
See Comparable interface ( 见 Comparable 接口 ) 
Compile a program ( 编译 程序 ) ，10 
Compiler ( 编译 髓 ) ，492, 498 
Complete binary tree ( 完全 二 义 树 ) ，314 
Complete graph (完全 有 向 图 ) ，681 
Compression. See Data compression ( 压缩 ， 见 数据 压缩 ) 
Computability ( 可 计算 性 ) ，910 
Computational complexity ( 计算 复杂 性 ) 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Intractability ( 不 可 解 性 ) ，910-921 
NP-complete (NP- 完全 ) ，917-918 
NP，912 
P, 914 
P= NP question, 916 
poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) ， 
916-917 
sorting ( 排序 ) ，279-282 
Computational geometry ( 计算 几何 学 ) ，76 
Concatenation of strings ( 字符 串 连 接 ) ，34 
Concordance ( 对 照 索引 ) ，510 
Concrete type ( 具体 类 型 ) ，122, 134 
Conditional statement ( 条 件 语句 ) ，15 
Connected components ( 连通 分 量 ) 
Computing ( 计算 ) ，543-546 
Defined (定义 ) ，519 
union-find ( union-find 算法 ) ，217 
Connected graph ( 连通 图 ) ，519 
Connectivity ( 连通 性 ) 
articulation point ( 关节 点 ) ，562 
biconnectivity( 双向 连通 性 ) ，562 
bridge ( 桥 ) ，562 
components ( 分 量 ) ，543-546 


dynamic ( 动态 的 ) ，216 
edge-connected graph ( 边 连通 图 ) ，562 
strong connectivity ( 强 连 通 性 ) ，584-591 
undirected graph ( 无 向 图 ) ，530 
union-find ( union-find 算法 ) ，216-241 
Constant running time( 常数 级 别 的 运行 时 间 ) ，186 
Constructor ( 构造 函数 ) ，65, 84-85 
continue statement ( continue 语句 ) ，15 
Contract ( 契约 ) ，33 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Cook, S., 759,918 
Cost model ( 成 本 模型 ) ，182 
array accesses ( 数组 的 访问 次 数 ) ，182, 220, 369 
binary search ( 二 分 查找 ) ，184 
B-tree (B- 树 ) ，866 
compares ( 比较 ) ，369 
equality tests 〈 等 价 性 测试 ) ，369 
searching (查找 ) ，369 
sorting ( 排序 ) ，246 
symbol table ( 符号 表 ) ，369 
3-sum ( 3-sum 问题 ) ，182 
union-find ( union-find 算法 ) ，220 
Coupon collector problem ( 优惠 券 收 集 问题 ) ，215 
Covariant arrays( 共 变 数组 ) ，158 
CPM. See Critical-path method ( CPM， 见 关键 路 径 算法 ) 
C language (C 语言 ) ，104 
C++ language (C++ 语言 ) ，104 
Critical edge ( 关键 边 ) ，633, 690, 900 
Critical path ( 关键 路 径 ) ，663 
Critical-path method ( 关键 路 径 算 法 ) ，663, 664 
Crossing edge ( 横 切 边 ) ，606 
Cubic running time ( 立方 级 别 的 运行 时 间 ) ，186 
Cuckoo hashing ( Cuckoo 散 列 函 数 ) ，484 
Cut ( 切 分 ) ，606 
See also Mincut problem ( 另 见 Mincut problem ) 
capacity of ( 容量 ) ，892 
optimality conditions ( 最 优 条 件 ) ，634 
property for MST ( 最 小 生成 树 定理 ) ，606 
st-cut ( st- 切 分 ) ，892 
Cycle( 环 ) 
Eulerian ( 欧 拉 ) ，562, 598 
Hamiltonian( 汉密尔顿 ) ，562 
in a digraph (在 有 向 图 中 ) ，567 
in a graph ( 在 图 中 ) ，519 
odd length ( 奇数 长 度 ) ，562 
simple (简单 ) ，519, 567 
Cycle detection ( 检测 环 ) ，546-547 
Cyclic rotation of a string( 字符 串 的 回环 变 位 ) ，784 
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D Dedup( dedup 过 滤器 ) ，490 
Default initialization ( 默认 初始 化 ) ，18, 86 
Defensive copy( 保护 性 复制 ) ，112 
Degree of a vertex ( 顶点 度数 ) ，519 


DAG. See Directed acyclic graph (DAG, 见 Directed acyclic 
graph ) 


Dangling else ( 无 主 的 else) ，52 Degrees of separation ( 间隔 的 度数 ) ，553-554 
Dantzig G., 909 Denial-of-service attacks ( 拒绝 服务 攻击 ) ，197 
Data abstraction ( 数据 抽象 ) ，64-119 Dense graph ( 稠密 图 ) ，520 
Data compression ( 数据 压缩 ) ，810-851 Deprecated method ( 弃 用 的 方法 ) ，113 
fixed-length code ( 定 长 编码 ) ，819-821 Depth-first search ( 深度 优先 搜索 ) ，530-534 
Huffman ( 霍 夫 曼 ) ，826-838 bipartiteness ( 二 分 图 ) ，547 
lossless ( 无损) ，811 connected components( 连通 分 量 ) ，543 
lossy ( 有 损 ) ，811 cycle detection ( 检测 环 ) ，547 
LZW algorithm (LZW 压缩 算法 ) ，839-845 directed cycle ( 有 向 环 ) ，574_581 


prefix-free code ( 前 级 码 ) ，826-827 

run-length encoding ( 游程 编码 ) ，822-825 
2-bit genomics code( 双 位 基因 编码 ) ，819-821 
undecidability ( 不 可 判定 性 ) ，817 

uniquely decodable code ( 唯一 解码 ) ，826 


longest path ( 最 长 路 径 ) ，912 
maze exploration ( 探索 迷宫 ) ，530 
path fnding ( 寻找 路 径 ) ，535-537 
reachability ( 可 达 性 ) ，570-573 


universal (通用 ) ，816 strong components ( 强 连 通 分 量 ) ，584-591 
variable-length code ( 变 长 码 ) ，826 topological order ( 拓扑 排序 ) ，574-581 

Data structure ( 数据 结构 ) transitive closure ( 传递 闭 包 ) ，592 
adjacency lists ( 邻接 表 ) ，525 Tremaux exploration ( Tremaux 搜索 ) ，530 
adjacency matrix ( 邻接 矩阵 ) ，524 2-colorability ( 双色 ) ，547 
binary heap (二 又 堆 ) ，313 union-find ( union-find 算法 ) ，546 
binary search tree ( 二 义 查 找 树 ) ，396 Depth of a node ( 节点 的 深度 ) ，226 
binary tree (二叉树 ) ，396 Deque data type( 双向 队列 数据 类 型 ) ，167, 212 
circular linked list ( 环形 链表 ) ，165 Design by contract ( 契约 式 设 计 ) ，107 


doubly-linked list ( 双向 链表 ) ，146 
linked list (链表 ) ，142-146 
multiway trie ( 多 路 单词 查找 树 ) ，732 
ordered array ( 有 序数 组 ) ，312 


Deterministic finitestate automaton ( 有 限 状 态 自 动机 ) ，764 
Devroye, L., 412 
DFA. See Deterministic finite state automaton ( DFA， 见 Detr- 


ministic finite-state automaton ) 


ee - 378 Diameter of a graph ( 图 的 直径 ) ，559, 685 
parentlink ( 父 链接 ) ，225 Dictionary (字典 ) ，361. See also Symbol table ( 男 见 Symbol 
resizing array ( 调整 数组 的 大 小 ) ，136 table ) 
ternary search trie (三 向 单词 查找 树 ) ，746 Digraph. See Directed graph ( 有 向 图 ， 见 Directed graph ) 
unordered array ( 无 序数 组 ) ，310 Digraph data type ( 有 癌 图 的 数据 类 型 ) ，568-569 
unordered list ( 无 序列 表 ) ，312 Dijkstra, E. W.，128, 298, 628, 682 

Data type ( 数据 类 型 ) Dijkstra"s 2-stack algorithm ( Dijkstra 双 栈 算法 ) ，128-131 
abstract ( 抽象 数据 类 型 ) ，64 Dijkstra’s algorithm ( Dijkstra 算法 ) ，652-657 
design of ( 抽象 数据 类 型 的 设计 ) ，96-97 bidirectional search( 双向 搜索 ) ，690 


encapsulation ( 抽象 数据 类 型 的 封装 ) ，96 

Date data type ( 日 期 数据 类 型 ) ，78-79 
compareTo() method ( compareTo() 方法 ) ，247 
equals() method (equalsO) 方法 ) ，103 
implementation ( 实现 ) ，91 


toString() method ( toString() 方法 ) ，103 0 
Decision problem ( 决定 性 问题 ) ，913 lowest common ancestor (最近 共同 祖先 ) ，598 


negative weights ( 负 权 重 ) ，668 

Directed acyclic graph ( 有 向 无 环 图 ) ，574-583 
depth-first orders ( 深度 优先 次 序 ) ，578 
edge-weighted ( 加权 ) ，658-667 


Hamiltonian path 〈 哈密 顿 路 径 ) ，598 


最 短 征 
Declaration statement ( 声明 语句 ) ，14 shortest ancestral path ( 最 短 先 导 路 径 ) ，598 


topological order ( 拓扑 排序 ) ，575 
topological sort ( 拓扑 排序 ) ，575 
Directed cycle ( 有 向 环 ) ，567 
Directed cycle detection (有 回环 检测 ) 576 
Directed edge (有 向 边 ) ，566 
Directed graph ( 有 问 图 ) ，566-603 
See also Edge-weighted digraph ( 另 见 Edge-weighted 
digraph ) 
acyclic (无 环 ) ，574-583 
adjacency-lists representation ( 邻接 表 表 示 ) ，568， 
S68-569 
all-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
anatomy of ( 详解 ) ，567 
breadth-first search (广度 优先 搜索 ) ，573 
cycle( 环 ) ，567 
cycle detection ( 检测 环 ) ，576 
defined (定义 ) ，566 
directed paths (有 向 路 径 ) ，573 
edge( 边 ) ，566 
Euler cycle ( Euler 环 ) ，598 
indegree and outdegree ( 入 度 和 出 度 ) ，566 
586-590 


Kosaraju’s algorithm ( Kosaraju 算法 ) ， 
path (路径 ) ，567 
postorder traversal ( 后 序 遍 历 ) ，578 
preorder traversal ( 前 序 遍 历 ) ，578 
reachability ( 可 达 性 ) ，570-572 
reachable vertex ( 可 达 顶 点 ) ，567 
reverse ( 取 反 ) ，568 
reverse postorder ( 逆 后 序 ) ，578 
shortest ancestral path ( 最 短 先 导 路 径 ) ，598 
shortest directed paths (〈 最 短 有 向 路 径 ) ，573 
simple ( 简单 ) ，567 
strong component ( 强 连通 分 量 ) ，584 
strong connectivity ( 强 连通 性 ) ，584-591 
strongly-connected ( 强 连通 ) ，584 
topological order ( 拓扑 排序 ) ，575-583 
transitive closure ( 传递 闭 包 ) ，592 
Directed path ( 有 向 路 径 ) ，567 
Disjoint set union. See Union find ( 不 相交 集合 并 ， 见 Union 
find ) 
Divide-and-conquer paradigm ( 分 治 思想 的 典型 应 用 ) 
mergesort ( 合并 排序 ) ，270 
quicksort ( 快速 排序 ) ，288, 293 
Division by zero ( 除 零 异常 ) ，51 
Documentation (文档 ) ，28 
Double hashing ( 二 次 散 列 ) ，483 
double primitive datatype ( double 原始 数据 类 型 ) ，12 
Double probing (二 次 探测 ) ，483 
Doubling ratio experiment ( 倍率 实验 ) ，192 


Doubling test ( 双 倍 测试 ) ，176-177 
Doubly-linked list ( 双向 链表 ) ，146 
Draw data type ( Draw 数据 类 型 ) ，82, 83 
Dump ( 转 储 ) ，813 
Duplicate keys ( 重复 元 素 ) 

3-way quicksort ( 三 向 切 分 的 快速 排序 ) ，301 

hash table ( 散 列 表 ) ，488 

in a symbol table ( 符号 表 中 的 重复 元 素 ) ，363 

MSD string sort ( 高 位 优先 的 字符 串 排 序 ) ，715 

priority queue ( 优先 队列 ) ，309 

quicksort ( 快速 排序 ) ，292 

sorting (排序 ) ，344 

stability ( 稳定 性 ) ，341 
Dutch National Flag ( 荷兰 国旗 问题 ) ，298 
Dynamic connectivity ( 动态 连通 性 ) ，216 
( 动态 内 存 分 配 ) ，104 
Dynamic resizing array.See Resizing array ( 动态 调整 数组 


Dynamic memory allocation 


大 小 ， 见 Resizing array ) 
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Eccentricity of a vertex ( 顶点 的 离心 率 ) ，559 
Edge ( 边 ) 

backward ( 逆向 ) ，891 

critical ( 关键 ) ，633, 900 

crossing ( 横 切 ) ，606 

data type ( 数据 类 型 ) ，608 

directed ( 有 向 ) ，566, 638 

eligible ( 有 效 的 ) ，646 

forward ( 正 向 ) ，891 

incident ( 依附 于 ) ，519 

ineligible (无 效 的 ) ，616, 646 

parallel ( 平行 ) ，518 

self-loop ( 自 环 ) ，518 

undirected (无 向 ) ，518 

weighted (加 权 ) ，608, 638 
Edge-connected graph ( 边 连 通 的 图 ) ，562 
Edge relaxation( 边 放松 ) ，646-647 
Edge-weighted DAG ( 无 环 加权 有 向 图 ) ，658-667 

critical path method ( 关键 路 径 法 ) ，663-667 

longest paths ( 最 长 路 径 ) ，661 

shortest paths ( 最 短路 径 ) ，658-660 
Edge-weighted digraph ( 加 权 有 向 图 ) 

adjacency-lists ( 邻接 表 ) ，644 

complete (完全) ，679 

data type ( 数据 类 型 ) ，641 

diameter of ( 直径 ) ，685 

shortest paths ( 最 短路 径 ) ，638-693 
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Edge-weighted graph (加权 无 向 图 ) 
adjacency-lists ( 邻接 表 ) ，609 
data type ( 数据 类 型 ) ，608 
min spanning forest ( 最 小 生成 森林 ) ，605 
min spanning tree ( 最 小 生成 树 ) ，604-637 
Edmonds, J., 901 
Eligible edge (有效 边 ) ，616, 646 
Ellipsoid algorithm ( 椭 球 法 ) ，909 
Empty string epsilon ( 空 字 符 串 s ) ，789, 805 
Encapsulation ( 封装 ) ，96 
Entropy( 焙 ) ，300-301 
Epsilon-transition ( e- 转换 ) ，795 
Equal keys. See Duplicate keys ( 等 值 键 ， 见 Duplicate keys ) 
equals() method ( equals() 方法 ) ，102-103 
symboltable ( 符号 表 ) ，365 
Equivalence class ( 等 价 类 ) ，216 
Equivalence relation ( 等 价 性 ) 
connectivity ( 连通 性 ) ，216, 543 
equals() method ( equals 0) 方法 ) ，102 
strong connectivity ( 强 连 通 性 ) ，584 
Erd5s number ( Erd6s 数 ) ，554 
Erdos, P., 554 
Erd6s-Renyi model ( Erd6s-Renyi 模型 ) ，239 
Error. See also Exception ( 错误 ， 另 见 异 常 ) 
OutOfMemoryError, 107 
StackOverflowError, 57, 107 
Euclid’s algorithm ( 欧 几 里 得 算法 ) ，4, 58 
Eulerian cycle( 欧 拉 环 ) ，562, 598 
Event-driven simulation ( 事件 驱动 模拟 ) ，349, 856-865 
Exception. See also Error ( 异常 ， 男 见 错误 ) 
Arithmetic, 107 
ArrayIndexOutOfBounds，107 
ClassCast, 387 
NoSuchElement, 139 
NullPointer, 159 
Runtime, 107 
UnsupportedOperation, 139 


ConcurrentModification, 160 

exch() method ( exch0Q 方法 ) ，245, 315 

Exhaustive search ( 穷 举 搜索 ) ，912 

Exponential inequality ( 指数 级 别 ) ，185 

Exponential running time ( 指数 级 别 的 运行 时 间 ) ，186， 
661, 911 

Extended Church-Turing thesis ( 扩展 丘 奇 - 图 灵 论 题 ) ， 
910 

Extensible library ( 可 扩展 的 库 ) ，101 

External path length 〈 外 部 路 径 长 度 ) ，418, 832 
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Factor an integer (整数 的 因数 ) ，919 
Factorial function( 阶乘 函数 ) ，185 
Fail-fast iterator ( 快速 出 错 的 迭代 器 ) ，160, 171 
Farthest pair ( 最 痪 远 的 一 对 ) ，210 
Fibonacci heap( 斐 波 纳 契 堆 ) ，628, 682 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
FIFO. See First-in first-out policy ( 先进 先 出 ， 见 先进 先 出 
策略 ) 
FIFO queue. See Queue data type ( 先进 先 出 队列 ， 见 队列 
数据 类 型 ) 
File system ( 文件 系统 ) ，493 
Filter ( 过 滤器 ) ，60 
blacklist ( 黑 名 单 ) ，491 
dedup( dedup 过 滤器 ) ，490 
whitelist ( 白 名 单 ) ，8, 491 
final access modifier ( final 访问 修饰 符 ) ，105-106 
Fingerprint search ( 指纹 搜索 ) ，774-778 


Finite state automaton. See Deterministic finite state 


automaton 
First-in-first-out policy ( 先进 先 出 策略 ) ，126 
Fixed-capacity stack ( 定 容 栈 ) ，132, 134-135 
Fixed-length code ( 定 长 编码 ) ，826 
Float primitive data type ( 浮 点 型 原始 数据 类 型 ) ，13 
Flood fill (填充 ) ，563 
Floor function ( 向 下 取 整 函数 ) 
binary search tree ( 二 叉 查 找 树 ) ，406 
mathematical function ( 数学 函数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symbol table ( 符号 表 ) ，367, 383 
Flow (流量 ) ，888. See also Maxflow problem ( 男 见 Maxflow 
problem ) 
flow network ( 流量 网 络 ) ，888 
inflow and outlow (流入 量 和 流出 量 ) ，888 
residual network ( 剩余 网 络 ) ，895 
st-flow (st- 流量 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
value ( 值 ) ，888 
Floyd, R. W., 326 
Floyd’s method ( Floyd 方法 ) ，327 
for loop (for 循环 ) ，16 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
analysis of ( 分 析 ) ，900 
maximum-capacity path ( 最 大 容量 增 广 路 径 ) ，901 
shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Ford, L., 683 
Foreach loop ( foreach 循环 ) ，138 


arrays( 数 组) ，160 

strings ( 字符 串 ) ，160 
Forest ( 森林 ) 

graph (图 )，520 

spanning ( 生成 ) ，520 
Forest-of-trees ( 森林 ) ，225 
Formatted output ( 格式 化 输出 ) ，37 
Fortran language ( Fortran 语言 ) ，217 
Fragile base class problem ( 脆弱 的 基 类 问题 ) ，112 
Frazer, W., 306 
Fredman, M. L., 628 
Function-call stack( 函数 调用 所 需 的 栈 ) ，246, 415 
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Garbage collection ( 垃圾 收集 ) ，104, 195 
loitering ( 对 象 游离 ) ，137 
mark-and-sweep( 标记 - 清除 ) ，573 
Gaussian elimination ( 高 斯 消 元 法 ) ，919 
Generics ( 泛 型 ) ，122-123, 134-135 
and covariant arrays ( 泛 型 与 共 变数 组 ) ，158 
and type erasure ( 汉 型 与 类 型 擦 除 ) ，158 
array creation ( 创建 数组 ) ，134, 158 
parameterized type ( 参数 化 类 型 ) ，122 
priority queues( 优先 队列 ) ，309 
stacks and queues ( 栈 和 队列 ) ，134-135 
symbol tables ( 符号 表 ) ，363 
type parameter ( 类 型 参数 ) ，122, 134 
Genomics ( 基因 组 ) ，492, 498 
Geometric data types( 几何 对 象 数据 类 型 ) ，76-77 
Geometric sum ( 等 比 数列 之 和 ) ，185 
getClass() method ( getClass0) 方法 ) ，101, 103 
Girth of a graph (图 的 周 长 ) ，559 
Global variable ( 全 局 变量 ) ，113 
Gosper, R. W., 759 
Graph data type ( 图 数据 类 型 ) ，522-527 
Graph isomorphism ( 图 同 构 ) ，561, 919 
Graph processing ( 图 处 理 ) ，514-693. See also Directed 
graph ( 另 见 Directed graph ) ; See also Edge-weighted 
digraph ( 另 见 Edge-weighted digraph ) ; See also Edge- 
weighted graph ( 另 见 Edge-weighted graph ) ; See also 


Undirected graph ( 另 见 Undirected graph ) ; See also 
Directed acyclic graph ( 男 见 Directed acyclic graph ) 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-681 
breadth-first search ( 广度 优先 搜索 ) ，538-541 
components (分 量 ) ，543-546 

critical-path method ( 关键 路 径 法 ) ，664-666 
depth-first search( 深度 优先 搜索 ) ，530-537 


Dijkstra’s algorithm ( Dijkstra 算法 ) ，652 
Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 
Kruskals algorithm ( Kruskal 算法 ) ，624-627 
longest paths ( 最 长 路 径 ) ，911-912 
max bipartite matching ( 最 大 二 分 图 匹配 ) ，906 
min spanning tree ( 最 小 成 生 树 ) ，604-637 
Prim’s algorithm ( Prim 算法 ) ，616-623 
reachability ( 可 达 性 ) ，570-573 
shortest paths ( 最 短路 径 ) ，638-693 
strong components ( 强 连 通 分 量 ) ，584-591 
symbol graphs ( 符号 图 ) ，548 
transitive closure ( 传递 财 包 ) ，592-593 
union-find ( union-find 算法 ) ，216-241 
Greatest common divisor ( 最 大 公约 数 ) ，4 
Greedy algorithm ( 贪心 算法 ) 
Huffman encoding ( 霍 夫 曼 编码 ) ，830 
minimum spanning tree ( 最 小 生成 树 ) ，607 
Grep, 804 
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Halting problem ( 停机 问题 ) ，910 
Hamiltonian cycle ( 汉密尔顿 环 ) ，562, 920 
Hamiltonian path ( 汉密尔顿 路 径 ) ，598, 913, 920 
Handle (句柄 ) ，112 
Hard-disc model ( 刚性 球体 模型 ) ，856 
Harmonic number ( 调和 数 ) ，23, 185 
Harmonic sum ( 调和 数 之 和 ) ，185 
hashCode() method (hashCodeQ 方法 ) ，101, 102, 461- 
462 
Hash function ( 散 列 函数 ) ，458, 459-463 
modular ( 除 留 余数 ) ，459 
perfect ( 完美 散 列 函数 ) ，480 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774 
Hashing. See Hash function ( 散 列 ， 见 Hash function ) 
See also Hash table ( 另 见 Hash table ) 
hash function ( 散 列 了 艺 数 ) ，459-463 
time-space tradeoff ( 时 间 和 空间 作出 权衡 ) ，458 
Hash table ( 散 列 表 ) ，458-485 
array resizing ( 调整 数组 大 小 ) ，474-475 
clustering ( 键 艇 ) ，472 
collision resolution ( 处 理 碰撞 冲突 ) ，458 
cuckoo hashing ( 布谷 鸟 散 列 ) ，484 
deletion (删除) ，468 
double hashing ( 二 次 散 列 ) ，483 
double probing (二 次 探测 ) ，483 
duplicate keys ( 重复 元 素 ) ，488 
hashCode() method (hashCode() 方法 )，461-462 
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hash function ( 散 列 函数 ) ，458 inverted (反问 索引 ) ，498-501 
Java library (Java 库 ) ，489 Index priority queue( 索引 优先 队列 ) ，320-322 
linear probing ( 线性 探测 ) ，469-474 Dijkstra’s algorithm ( Dijkstra 算法 ) ，652 
load factor ( 使 用 率 ) ，471 Prim’s algorithm ( Prim 算法 ) ，620 
memory usage of ( 内 存 使 用 ) ，476 Indirect sort ( 间接 排序 ) ，286 
primitive types( 原始 数据 类 型 ) ，488 Ineligible edge ( 无 效 边 ) 
separate chaining ( 拉链 法 ) ，464-468 minimum spanning tree ( 最 小 生成 树 ) ，616 
uniform hashing assumption ( 均匀 散 列 假设 ) ，463 shortest paths ( 最 短路 径 ) ，646 
Head vertex ( 头顶 点 ) ，566 Infix notation ( 中 级 记 法 ) ，13, 128, 162 
Heap. See Binary heap〈 堆 ， 见 Binary heap ) Inherited methods( 继承 的 方法 ) ，66, 100-101 
mnultiway ( 多 又 堆 ) ，319 compare() ，338-339 
Heap order ( 堆 有 序 ) ，313 compareTo() ，246-247 
Heapsort ( 堆 排序 ) ，323-327 equals(), 102-103 
Height ( 树 的 高 度 ) getClassO), 101 
2-3 search tree ( 2-3 查找 树 ) ，429 hashCode(), 101,461-462 
binary search tree ( 二 叉 查 找 树 ) ，412 hasNext(), 138 
complete binary tree ( 完全 二 叉 树 ) ，314 iterator(), 138 
red-black BST ( 红 黑 二 又 查 找 树 ) ，444 next(), 138 
tree ( 树 ) ，226 toString(), 66, 101 
Hibbard deletion ( Hibbard 删除 方法 ) ，422 Inner loop( 内 循环 ) ，180, 184, 195 
Hibbard, T.,410 Inorder tree traversal ( 中 序 遍历 ) ，412 
Hoare, C. A. R., 205 In-place merge ( 原 地 合并 ) ，270 
Horners method ( Horner 方法 ) ，460 Input and output ( 输入 和 输出 ) ，82-83 
h-sorted array( h 有 序数 组 ) ，258 binary data( 二进制 数据 ) ，812-815 
Huffman compression ( 霍 夫 曼 压 缩 ) ，350, 826-838 from afile ( 从 文件 重 定向 标准 输入 或 将 标准 输出 重 
analysis of ( 分 析 ) ，833 定向 到 文件 ) ，41 
optimality of ( 最 优 性 ) ，833 piping ( 管道 ) ，40 
Huffman, D.，827 redirection ( 重 定向 ) ，40 


Input model ( 输入 模型 ) ，197 
Input size (输入 规模 ) ，173 


| Insertion sort ( 搬入 排序 ) ，250-252 
Instance method ( 实例 方法 ) ，65, 84 
if statement (if 语句 ) ，15 Instance variable 〈 实例 变量 ) ，84 
if-else statement ( if-else 语句) ，15 int primitive data type ( int 原始 数据 类 型 ) ，12 
Immutability ( 不 可 变性 ) ，105-106 Integer linear inequality satisfiability problem ( 整数 线性 不 
defensive copy ( 保护 性 复制 ) ，112 等 式 可 满足 性 问题 ) ，913 
of strings ( 字符 串 的 不 可 变性 ) ，114, 202, 696 Integer linear programming ( 整数 线性 规划 ) ，920 
priority queue keys ( 优先 队列 中 的 元 素 ) ，320 Integer overflow ( 整数 洲 出 ) ，51 
symbol table keys ( 符号 表 中 的 键 ) ，365 Interface ( 接口) ，100 
Implementation ( 实现 ) ，28, 88 Comparable, 246-247 
Implementation inheritance( 实现 继承 ) ，101 Comparator, 338-340 
import statement ( import 语句 ) ，27, 29, 66 Iterable，138 
Incident edge ( 关联 边 ) ，519 ak 
Increment sequence ( 递增 序列 ) ，258 Interface inheritance ( 接口 继承 ) ，100 
In data type ( In 数据 类 型 ) ，41, 83 Interior point method ( 内 点 法 ) ，909 
Indegree of a vertex ( 顶点 的 人 度 ) ，566 Internal path length ( 内 部 路 径 长 度 ) ，412 
Index (索引 ) ，361, 496_501 Internet DNS (互联 网 DNS ) ，493 
string ( 字符 申 索 引 ) ，877 Internet Movie Database ( 互联 网 电影 数据 库 ) ，497 


files (文件 索引 ) ，500_501 Interpreter ( 解释 咒 ) ，130 


Interval graph ( 区 间 图 ) ，564 
Intractability ( 不 可 解 性 ) ，910-921 
Inversion ( 反 向 ) ，252,，286 
Inverted index ( 反 向 索引 ) ，498-501 
Ising model ( 伊 辛 模型 ) ，920 
Isomorphic graph ( 同 构 图 ) ，561 
Item ( 元素 ) 

contains a key ( 每 个 元 素 有 一 个 主键 ) ，244 

sorting (排序 ) ，244 

symbol table ( 符号 表 ) ，387 

with multiple keys ( 多 键 数 组 ) ，339 
Item type parameter ( Item 数据 类 型 ) ，134 
Iteration ( 迄 代 ) ，123, 138-141 

fail-fast ( 快速 出 错 ) ，171 

foreach loop ( foreach 循环 ) ，123 


Jacquet, P，882 

Jarnik’s algorithm ( Jarnik 算法 ) ，628 

See also Prim’s algorithm ( 另 见 Prim 算法 ) 

Jarnik, V., 628 

Java programming ( Java 编程 ) 
array ( 数组 ) ，18-21 
arrays as objects ( 数组 对 象 ) ，72 
arrays of objects ( 对 象 的 数组 ) ，72 
assertion ( 断言 ) ，107 
assert statement ( assert 语句 ) ，107 
assignment statement ( 赋值 语句 ) ，14 
autoboxing ( 自动 装 箱 ) ，122 
autounboxing ( 自动 拆 箱 ) ，122 
base class ( 基 类 ) ，101 
bitwise operators ( 位 运算 符 ) ，52 
block statement ( 语句 块 ) ，15 
boolean expression ( 布尔 表达 式 ) ，13 
break statement ( break 语句 ) ，15 
bytecode(〈 字 节 码 ) ，10 
cast ( 类 型 转换 ) ，13 
class (类 ) ，10, 64 
classpath ( 类 路 径 ) ，66 
comparison operator ( 比较 运算 符 ) ，13 
conditional statement ( 条 件 语句 ) ，15 
constructor ( 构造 函数 ) ，65, 84 
continue statement ( continue 语句 ) ，15 
covariant arrays ( 共 变 数组 ) ，158 
create an object ( 创建 对 象 ) ，67 
declaration statement ( 声明 语句 ) ，14 
default initialization ( 默认 初始 化 ) ，18, 86 


deprecated method ( 弃 用 的 方法 ) ，113 
derived class( 派生 类 ) ，101 

Error, 107 
Exception, 107 


expression ( 表达 式 ) ，11, 13 

final modifier ( final 修饰 符 ) ，84, 105-106 
for loop (for 循环 ) ，16 

foreach loop ( foreach 循环 ) ，123 
garbage collection ( 垃圾 收集 ) ，104 

generic array creation ( 创建 泛 型 数组 ) ，158 
generics ( 泛 型 ) ，122-123, 134-135 
identifier ( 标识 符 ) ，11 

if statement (if 语句 ) ，15 

if-else statement ( if-else 语句 ) ，15 
implicit assignment ( 隐 式 赋值 ) ，16 

import statement ( import 语句 ) ，29 
imported system libraries ( 导入 的 系统 库 ) ，27 
infix expression ( 中 级 表达 式 ) ，13 
inheritance ( 继承 ) ，100-101 

inherited method ( 继承 的 方法 ) ，66 
initializing declarations ( 初始 化 声明 ) ，16 
inner class ( 内 部 类 ) ，159 

instance method ( 实例 方法 ) ，65, 84, 86 
instance method signature ( 实例 方法 签名 ) ，86 
instance variable ( 实例 变量 ) ，84 

invoke instance method ( 调用 实例 方法 ) ，68 
iterable collections( 可 迭代 的 集合 ) ，123 
just-in-time compiler (JIT 编译 器 ) ，195 
literal ( 字面 量 ) ，11 

loitering ( 游离 对 象 ) ，137 

loop statement ( 循环 语句 ) ，15 

memory management ( 内 存 管理 ) ，104 
modular programming ( 模块 化 编程 ) ，26 
nested class ( 枫 套 类 ) ，159 

new(), 67 

objects ( 对 象 ) ，67-74 

objects as arguments ( 对 象 作 为 参数 ) ，71 
objects as return values ( 对 象 作为 返回 值 ) ，71 
operator ( 运算 符 ) ，11 

operator precedence ( 运算 符 优先 级 ) ，13 
orphan (孤儿 ) ，137 

orphaned object ( 孤儿 对 象 ) ，104 
overloading ( 重 载 ) ，12, 24 

override a method ( 重 载 方法 ) ，101 
parameterized type ( 参数 化 类 型 ) ，122, 134 
pass by reference ( 按 引用 传递 ) ，71 

pass by value ( 按 值 传递 ) ，24, 71 

primitive data type( 原始 数据 类 型 ) ，11-12 
private class (private 类 ) ，159 
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private modifier ( private 修饰 符 ) ，84 
protected modifier ( protected 修饰 符 ) 
public modifier ( public 修饰 符 ) ，84, 110 
ragged array ( 参差 不 齐 的 数组 ) ，19 


recursion (递归 ) ，25 


reference (引用 )， 


reference type ( 5| i 站 

return statement ( return 语 0 ，86 
scope ( 作用 域 ) ，14, 87 
short-circuiting ww 小 .2 
side effects ( 副作用 ) 

single-statement blocks ( di R 码 段 ) ，16 
standard libraries 〈 标准 库 ) ， 

standard system libraries ( 标 ; ee ) 
statement (语句 ) ，14 

static method ( 静态 方法 ) ，22-25 
static variable ( 静态 变量 ) ，113 

strong typing ( 强 类 型 ) ， 

subclass ( 子 类 ) ，101 

superclass ( 父 类 ) ，101 

this reference (this 引用 ) ，87 

由 出 错误 或 异常 ) ，107 
two-dimensional array ( 二 维 数组 ) 

type conversion ( 类 型 转换 ) ，13, 35 
type erasure ( 类 型 擦 除 ) 

type parameter ( 类 型 参数 ) ，122 

unit testing (单元 测试 ) ，26 


using objects ( 使 ，69 
(变量 )， 


throw an error/exception ( 


variable 
visibility modifier ( ee ) 
while loop ( while 循环 ) ，15 
wrapper type ( 封装 类 型 ) ，122 
Java system sort ( Java 系统 排序 ) ，306 
Java virtual machine ( Java 虚拟 机 ) ，51 
java.awt 
Color, 75 
Font, 75 
java.io 
File, 75 
java.lang 


ArithmeticException, 107 
ArrayIndexOutOfBounds，107 
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ClassCastException, 387 
Comparable, 100 
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Iterable, 100, 123, 138, 154 
Long, 102 
Math, 28 
NullPointer, 107, 113, 159 
Object, 101 
OutOfMemoryError, 107 
RuntimeException, 107 
Short, 102 
StackOverflowError, 57, 107 
StringBuilder, 27, 105, 697 
UnsupportedOperation, 139 
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ArrayList, 160 
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ConcurrentModificationException，160 
Date，113 
HashMap, 489 
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LinkedList, 160 
NoSuchElementException, 139 
PriorityQueue, 352 
Stack, 159 
TreeMap, 489 


Job-scheduling problem. See Scheduling ( 任务 调度 问题 
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Josephus problem ( Josephus 问题 ) ，168 
Just-in-time compiler (JIT 编译 器 ) 
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Kendall tau distance ( Kendall tau 距离 ) ，286, 345, 356 
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Key ( 键 ) ，244 
Key equality ( 键 的 等 价 性 ) 
ordered symbol table ( 有 序 符 号 表 ) ，368 
symbol table ( 符号 表 ) ，365 
Key-indexed counting ( 键 索 引 计 数 法 ) ， 
Key type parameter ( Key , 
priority queue ( 优先 队列 » 
symbol table ( 符号 表 ) ， 
Keyword in context ( a ， 879 
Khachian, L. G., 909 
Kleene’s theorem ( Kleene 定理 ) ，794 
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Kosaraju’s algorithm ( Kosaraju 算法 ) ，586-590 
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Kruskal’s algorithm ( Kruskal 算法 ) ，624-627 

KWIC. See Keyword-in-context ( KWIC, 
context ) 
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Last-in-first-out policy ( 后 进 先 出 策略 ) ，127 
Las Vegas algorithm ( 拉 斯 维 加 斯 算法 ) ，778 
Leading-term approximation. See Tilde notation( 首 项 近似 ， 
见 Tilde notation ) 
Least-significant digit ( 最 低 有 效 位 数 ) 
See LSD string sort ( 风 LSD string sort ) 
Leipzig Corpora Collection ( Leipzig Corpora 数据 库 )， 
371 
Lempel, A.,839 
less() method ( less() 方法 ) ，245, 315 
Level-order traversal ( 按 层 遍历 ) 
binary heap (二 又 堆 ) ，313 
binary search tree ( 二 叉 查 找 树 ) ，420 
Levin, L., 918 
LIFO. See Last-in first-out policy ( LIFO, 
out policy ) 
LIFO stack. See Stack data type ( LIFO 栈 ， 
type ) 
Linear equation satisfiability ( 线性 等 式 可 满足 性 ) 913 
Linear inequality satisfiability ( 线性 不 等 式 可 满足 性 ) ， 
913 
Linear probing( 线性 探测 ) ，469-474 
Linear programming ( 线性 规划 ) ，907-909 
ellipsoid algorithm ( 椭 球 法 ) ，909 
interior point method ( 内 点 法 ) ，909 
reductions ( 归 约 ) ，907-909 
simplex algorithm ( 单纯 形 法 ) ，909 
Linear running time ( 线性 级 别 的 运行 时 间 ) ，186 
Linearithmic running time (线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Linked allocation ( 链 式 存储 ) ，156 
Linked list (链表 ) ，142-146 
building ( 创建 链表 ) ，143 
circular ( 环形 链表 ) ，165 
deftined( 定 义 ) ，142 
deletion ( 删除 元 素 ) ，145 
deletion from beginning ( 从 表 头 删除 元 素 ) ，145 
garbage collection ( 垃圾 收集 ) ，145 
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insertion ( 插入 ) ，145 
insertion at beginning (在 表 头 插入 节点 ) ，144 
insertion at end ( 在 表 尾 插入 节点 ) ，145 
iterator ( 迭代 器 ) ，154-155 
memory usage of ( 内 存 使 用 ) ，201 
Node data type ( Node 数据 类 型 ) ，142 
queue〈 队 列 ) ，150 
reverse a ( 将 链表 反 转 ) ，165 
sequential search ( 顺序 查找 ) ，374 
shuffle a ( 打 乱 链表 ) ，288 
sort a ( 链表 排序 ) ，286 
stack( 栈 ) ，147-149 
traversal ( 遍历 ) ，146 
Literal ( 字面 量 ) 
nul1，112-113 
primitive type ( 原始 数据 类 型 ) ，11 
string (字符 串 ) ，80 
Load-balancing ( 负载 均衡 ) ，349, 909 
Load factor ( 使 用 率 ) ，471 
Local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
Logarithm function ( 对 数 函 数 ) 
binary (以 2 为 底 的 对 数 函 数 ) ，185 
integer binary ( 以 2 为 底 的 整 型 对 数 函 数 ) ， 
natural ( 自然 对 数 函 数 ) ，185 
Logarithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Log-log plot ( 对 数 图 像 ) ，176 
Loitering ( 游离 对 象 ) ，137 
Longest common prefix ( 最 长 公共 前 级 ) ，875 
Longest paths ( 最 长 路 径 ) ，661, 911 
Longest prefix match ( 匹配 的 最 长 前 级 ) ，842 
Longest processing-time first rule( 最 大 优先 ) ，349 
Longest repeated substring ( 最 长 重复 子 字符 串 ) ， 875 
1ong primitive data type ( 1ong 原始 数据 类 型 ) ，13 
Loop〔 循环 ) 
for, 16 
foreach, 138 
inner ( 内 部 循环 ) ，180 
while, 15 
Lossless data compression ( 无 损 数据 压缩 ) ，811 
Lossy data compression ( 有 损 数据 压缩 ) ，811 
Lower bound (下 界 ) 
priority queue ( 优先 队列 ) ，332 
sorting ( 排序 ) ，279-282 
3-sum problem ( 3-sum 问题 ) ，190 
union-find ( union-find 算法 ) ，231 
Lowest common ancestor ( 最 近 公共 祖先 ) ，598 
Loyd, S., 358 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706-709 
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LZW algorithm ( LZW 压缩 算法 ) ，839-845 
compression ( 压缩 ) ，840 
expansion (压缩 的 展开 ) ，841 
trie representation ( 单词 查找 树 表示 ) ，840 
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Manber, U., 884 
Mark-and-sweep garbage collection ( 标记 - 清除 的 垃圾 收 
集 ) ，573 
Maslow, A.，904 
Maslow’s hammer ( Maslow 的 锤子 ) ，904 
Matrix data type( 矩阵 数据 类 型 ) ，60 
Maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ，894 
Maxflow problem ( 最 大 流 问 题 ) ，886-902 
See also Mincut problem ( 另 见 Mincut problem ) 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
integrality property ( 完整 性 ) ，894 
maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定型 
892-894 
max bipartite matching ( 最 大 二 分 图 匹配 问题 ) 906 
preflow-push algorithm ( preflow-push 算法 ) ，902 
reductions( 归 约 ) ，905-907 
residual network ( 剩余 网 络 ) ，895-897 
Maximum ( 最 大 元 素 ) 
in array ( 数组 中 的 最 大 元 素 ) ，30 
in binary heap (二 又 堆 中 的 最 大 元 素 ) ，313 
in binary search tree ( 二 又 查找 树 中 的 最 大 元 素 ) ，406 
in ordered symbol table ( 有 序 符 号 表 中 的 最 大 元 素 ) ， 
367 
Maximum st-Hlow problem. See Maxflow problem ( 最 大 st- 
流量 问题 ， 见 Maxflow problem ) 
Max bipartite matching ( 最 大 二 分 图 匹配 问题 ) ，906 
Maze (迷宫 ) ，530 
Mcllroy, D.，298, 306 
McKellar, A., 306 
Median ( 中 位 数 ) ，332, 345-347 
Median-of-3 partitioning ( 三 取样 切 分 ) ，305 
Memory management ( 内 存 管理 ) ，104 
linked allocation ( 链 式 存储 ) ，156 
loitering ( 游离 对 象 ) ，137 
orphan (孤儿 ) ，137 
Sequential allocation 〈 顺序 存储 ) ，156 
Memory usage ( 内 存 使 用 ) ，200-204 
array( 数组) ，202 
hash table ( 散 列 表 ) ，476 
linked list ( 链表 ) ，201 
nested class( 般 套 类 ) ，201 
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object ( 对 象 ) ，67, 201 
primitive types( 原始 数据 类 型 ) ，200 
R-way trie( R 向 单词 查找 树 ) ，746 
stack( 栈 ) ，213 
string (字符 串 ) ，202 
substring ( 子 字符 串 ) ，202-204 
Mergesort ( 合并 排序 ) ，270-288 
abstract in-place merge ( 抽象 原 地 合并 算法 ) ，270 
analysis of ( 合并 排序 分 析 ) ，272 
bottom-up (〈 自 底 向 上 的 合并 排序 ) ，277 
linked list ( 链表 ) ，279, 286 
mnultiway ( 多 向 合并 排序 ) ，287 
natural ( 自然 合并 排序 ) ，285 
optimality ( 最 优 算法 ) ，282 
stability ( 稳定 性 ) ，341 
top-down ( 自 顶 向 下 的 合并 排序 ) ，272 
Merging (合并 ) ，270-271 
Method (方法 ) 
inherited ( 继承 的 方法 ) ，100-101 
instance ( 实例 方法 ) ，68-69, 86-87 
static ( 静态 ) ，22-25 
Mincut problem ( 最 小 切 分 问题 ) ，893 
See also Maxflow problem ( 另 见 Maxflow problem ) 
Minimum ( 最 小 元 素 ) 
in array ( 数组 中 的 最 小 元 素 ) ，30 
in binary search tree ( 二 又 查找 树 中 的 最 小 元 素 ) ，406 
in ordered symbol table ( 有 序 符号 表 中 的 最 小 元 素 ) ， 
367 
Min spanning forest ( 最 小 生成 森林 ) ，605 
Min spanning tree ( 最 小 生成 树 ) ，604-637 
Boruvka’s algorithm ( Boruvka 算法 ) ，636 
bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
critical edge ( 关键 边 ) ，633 
crossing edge ( 横 切 边 ) ，606 
cut ( 切 分 ) ，606 
cut optimality conditions ( 最 优 切 分 条 件 ) ，634 
cut property ( 切 分 定理 ) ，606 
defined (定义 ) ，604 
greedy algorithm ( 贪心 算法 ) ，607 
Kruskal’s algorithm ( Kruskal 算法 ) ，624-627 
Prim’s algorithm ( Prim 算法 ) ，616-623 
reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Vyssotsky”s algorithm ( Vyssotsky 算法 ) ，633 
Minimum st-cut problem. See Mincut problem ( 最 小 st- 切 
分 问题 ， 见 Mincut problem ) 
Minotaur ( 米 诺 陶 ) ，530 
Mismatched character rule ( 启发 式 处 理 不 匹配 的 字符 法 
则 ) ，770 
M.L. Fredman, 628 


Modular hash function ( 除 留 余数 法 散 列 函数 ) ，459, 774 

Modular programming ( 模块 化 编程 ) ，26 

Monte Carlo algorithm ( 蒙特 卡 洛 法 ) ，776 

Moore, J. S., 759 

Moore’s law ( 摩尔 定律 ) ，194-195 

Morris, J. H., 759 

Most-significant-digit sort. See MSD string sort ( 高 位 优先 
的 字符 串 排 序 ， 见 MSD string sort ) 

Move-to-front ( 前 移 编码 ) ，169 

MSD string sort ( 高 位 优先 的 字符 串 排 序 ) ，710-718 

Multidimensional sort ( 多 维 排序 ) ，356 

Multigraph ( 多 重 图 ) ，518 

Multiple-source reachability problem ( 多 点 可 达 性 问题 ) ， 
570, 797 

Multiset, 509 

Multiway mergesort ( 多 向 合并 排序 ) ，287 

Multiway trie. See R-way trie ( 多 向 单词 查找 树 ， 见 R-way 
trie ) 

Myers, E., 884 
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自然 对 数 函 数 ) ，185 
Natural mergesort ( 自然 合并 排序 ) ，285 
Natural order ( 自然 次 序 ) ，337 

Negative cost cycle ( 负 权 重 的 环 ) 

See Negative cycle ( W Negative cycle ) 
Negative cycle ( 负 权 重 的 环 ) ，668-670, 677-681 
Nested class ( 向 套 类 ) ，159 
Network flow (网 络 流量 ) 

See Maxflow problem ( 见 Maxflow problem ) 
new(), 67 
Newton’s method ( 牛顿 迭代 法 ) ，23 
NFA. See Nondeterministic finite-state automata ( 非 确 定 有 限 

状态 自动 机 ， 见 Nondeterministic finite-state automata ) 
Node data type ( Node 数据 类 型 ) ，159 

bag ( 背包 ) ，155 

binary search tree ( 二 叉 查 找 树 ) ，398 

Huffman trie ( 霍 夫 曼 单词 查找 树 ) ，828 

linked list (链表 ) ，142 

queue (队列 ) ，151 

red-black BST ( 红 黑 二 又 查找 树 ) ，433 

R-way trie (有 向 单词 查找 树 ) ，734 

stack( 栈 ) ，149 

ternary search trie (三 向 单词 查找 树 ) ，747 
Nondeterminism ( 非 确定 ) ，794 

Turing machine ( 图 灵机 ) ，914 


Natural logarithm function 


Nondeterministic finite-state automata ( 非 确定 有 限 状 态 自 
动机 ) ，794-799 

NP，912 

NP-complete (NP- 完全 ) ，917-918 

Null link ( 空 链接 ) ，396 

null literal ( nu11 字面 量 ) ，112-113 
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Object ( 对 象 ) ，67-74 
See also Object-oriented programming ( 另 见 Object- 
oriented programming ) 
behavior (行为 ) ，67, 73 
identity ( 身份 ) ，67, 73 
memory usage of ( 对 象 的 内 存 使 用 ) ，201 
state ( 对 象 的 状态 ) ，67, 73 
Object-oriented programming ( 面向 对 象 编程 ) ，64-119 
arrays of objects ( 对 象 数组 ) ，72 
creating an object ( 创建 对 象 ) ，67 
declaring an object ( 声明 对 象 ) ，67 
encapsulation ( 封装 ) ，96 
inheritance (继承 ) ，100 
instance ( 实例 ) ，73 
instantiate an object ( 实例 化 对 象 ) ，67 
invoke instance method ( 调用 实例 方法 ) ，68 
objects ( 对 象 ) ，67-74 
objects as arguments ( 对 象 作 为 参数 ) ，71 
objects as return values ( 对 象 作为 返回 值 ) ，71 
reference (引用 ) ，67 
subtyping ( 子 类 型 ) ，100 
using objects ( 使 用 对 象 ) ，69 
Odd-length cycle in a graph ( 图 中 长 度 为 奇数 的 环 ) ，562 
OOP. See Object-oriented programming ( OOP， 见 Object- 
oriented programming ) 


Operations research ( 运筹 学 ) ，349 


Optimization problem ( 最 优化 问题 ) ，913 
Ordered symbol table ( 有 序 符号 表 ) ，366-369 
floor and ceiling ( 向 下 取 整 和 向 上 取 整 函数 ) ，367 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，368 
rank and selection (排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 又 查找 树 ) ，446 
Order of growth ( 增长 数量 级 ) ，179 
Order-of-growth classifications ( 增长 数量 级 的 分 类 ) ， 
186-188 
Order-of-growth hypothesis ( 增长 数量 级 的 猜想 ) ，180 
Order statistic ( 顺序 统计 ) ，345 
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binary search tree (二 又 查找 树 ) ，406 

ordered symbol table ( 有 序 符 号 表 ) ，367 

quicksort ( 快速 排序 ) ，345-347 
Orphaned object ( 孤儿 对 象 ) ，104, 137 
Out data type ( Out 数据 类 型 ) ，41, 83 
Outdegree of a vertex ( 顶点 的 出 度 ) ，566 
Output. See Input and output (输出 ， 见 Input and output ) 
Overflow( 洲 出 ) ，51 
Overloading ( 重 载 ) 

constructor ( 构造 函数 ) ，84 

static method ( 静态 方法 ) ，24 
Overriding a method ( 重 载 方 法 ) ，66, 101 
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P complexity class ( P- 复杂 性 类 ) ，914 
P= NP question ( P= NP 问题 ) ，916 
Page data type( Page 数据 类 型 ) ，870 
Palindrome ( 回 文 ) ，81, 783 
Parallel arrays( 平行 的 数组 ) 
linear probing( 线性 探测 ) ，471 
ordered symbol table ( 有 序 符 号 表 ) ，378 
sorting ( 排序 ) ，357 
Parallel edge ( 平行 边 ) ，518, 566, 612, 640 
Parallel job scheduling ( 并 行 任务 调度 ) ，663-667 
Parallel precedence-constrained scheduling ( 优先 级 限制 下 
的 并 行 任务 调度 ) ，663, 904 
Parameterized type. See Generics ( 参数 化 类 型 ， 见 Generics ) 
Parent-link representation ( 父 链接 形式 ) 
breadth-first search tree( 广度 优先 搜索 树 ) ，539 
depth-first search tree ( 深度 优先 搜索 树 ) ，535 
minimum spanning tree ( 最 小 生成 树 ) ，620 
shortest-paths tree ( 最 短路 径 树 ) ，640 
union-find ( union-find 算法 ) ，225 
Parsing ( 解析 ) 
an arithmetic expression ( 算术 表达 式 ) ，128 
a regular expression ( 正则 表达 式 ) ，800-804 
Particle datatype (Particle 数据 类 型 ) ，860 
Partitioning algorithm ( 切 分 算法 ) ，290 
2-way (二 向 切 分 ) ，288 
3-way (Bentley-Mcllroy) ( Bentley-Mcllroy 三 向 切 分 ) ， 
306 
3-way (Dijkstra) ( Dijkstra 三 向 切 分 ) ，298 
median-of-3( 三 取样 切 分 ) ，296, 305 
median-of-5 ( 五 取样 切 分 ) ，305 
selection( 基于 切 分 的 选择 算法 ) ，346-347 
Partitioning item ( 切 分 元 素 ) ，290 
Pass by reference ( 按 引 用 传递 ) ，71 


Pass by value ( 按 值 传递 ) ，24, 71 
Path. See Longest paths 
See also Shortest paths (路径 ， 见 Longest paths ， 
另 见 Shortest paths ) 
augmenting ( 增 广 ) ，891 
Hamiltonian ( 汉密尔顿 ) ，913, 920 
ina digraph (在 有 向 图 中 ) ，567 
in a graph (在 图 中 ) ，519 
length of ( 长 度 ) ，519, 567 
simple (简单 ) ，519, 567 
Path compression ( 路 径 压 缩 ) ，231 
Pattern matching. 
See Regular expression ( 模式 匹配 ， 见 Regular 
expression ) 
Perfect hash function ( 完美 散 列 函数 ) ，480 
Performance. See Propositions ( 性 能 ， 见 命题 ) 
Permutation ( 排列 ) 
Kendall-tau distance ( Kendall tau 距离 ) ，356 
random ( 随机 排列 ) ，168 
ranking (排名 ) ，345 
sorting ( 排序 ) ，354 
Phone book ( 电话 黄页 ) ，492 
Picture data type (Picture 数据 类 型 ) ，814 
Piping (管道 ) ，40 
Point data type ( Point 数据 类 型 ) ，77 
Pointer，111. See also Reference ( 指针 ， 另 见 Reference ) 
Safe ( 安全 指针 ) ，112 
Pointer sort ( 指针 排序 ) ，338 
Poisson approximation ( 泊 松 近似 ) ，466 
Poisson distribution ( 泊 松 分 布 ) ，466 
Polar angle( 极 角 ) ，356 
Polar coordinate ( 极 坐 标 ) ，77 
Poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) ，916 
Pop operation ( 出 栈 操作 ) ，127 
Postfix notation ( 后 级 记 法 ) ，162 
Postorder traversal ( 后 序 遍历 ) 
of a digraph ( 对 于 有 向 图 ) ，578 
reverse ( 取 反 ) ，578 
Power law ( 窜 次 规则 ) ，178 
Pratt, V. R., 759 
Precedence-constrainted scheduling ( 优先 级 限制 下 的 任 
务 调度 ) ，574-575 
Precedence order ( 优先 级 次 序 ) 
arithmetic expressions ( 算术 表达 式 ) ，13 
regular expressions ( 正则 表达 式 ) ，789 
Prefix-free code ( 前 级 码 ) ，826-827 
compression (压缩) ，829 
expansion (压缩 的 展开 ) ，828 
Huffman ( 堆 夫 曼 ) ，833 


optimal ( 最 优 的 ) ，833 
reading and writing ( 读 和 写 ) ，834-835 
trie representation ( 单词 查找 树 表示 ) ，827 
Preorder traversal ( 前 序 遍 历 ) 
of a digraph ( 对 于 有 癌 图 ) ，578 
of a trie( 对 于 单词 查找 树 ) ，834 
Prime number ( 素数 ) ，23, 774, 785 
Primitive data type ( 原始 数据 类 型 ) ，11-12 
memory usage of ( 内 存 使 用 ) ，200 
wrapper type ( 封装 类 型 ) ，102 
Primitive type ( 原始 数据 类 型 ) 
Versus reference type ( 及 引用 类 型 ) ，110 
Prim, R., 628 
Prim’s algorithm ( Prim 算法 ) ，350, 616-623 
eager ( 即时 实现 ) ，620-623 
lazy ( 延 时 ) ，616-619 
Priority queue ( 优先 队列 ) ，308-335 
binary heap( 二 叉 堆 ) ，313-322 
change priority( 改变 优先 级 ) ，321 
delete( 删除 元 素 ) ，321 
Dijkstra’s algorithm ( Dijkstra 算法 ) ，652 
Fibonacci heap ( 斐 波 纳 契 堆 ) ，628 
Huffman compression ( 霍 夫 曼 压 缩 ) ，830 
index priority queue ( 索引 优先 队列 ) ，320-321 
linked-list ( 链表 ) ，312 
mnultiway heap( 多 又 堆 ) ，319 
ordered array ( 有 序数 组 ) ，312 
Prim's algorithm ( Prim 算法 ) ，616 
reductions ( 归 约 ) ，345 
remove the minimum ( 删除 最 小 元 素 ) ，321 
stability (稳定 性 ) ，356 
unordered array ( 无 序数 组 ) ，310 
private access modifier ( private 访问 修饰 符 ) ，84 


Probabilistic algorithm. See Randomized algorithm ( 概率 算 


法 ， 见 Randomized algorithm ) 
Probe (探测 ) ，471 
Problem size ( 问题 规模 ) ，173 
Programs ( 程序 ) 
Accumulator, 93 
AcyclicLP, 661 
AcyclicSP, 660 
Arbitrage, 680 
Average, 39 
Bag, 155 
BellmanFordSP, 674 
BinaryDump, 814 
BinarySearch, 47 
BinarySearchST, 379, 381, 382 
BlackFilter, 491 


BoyerMoore, 772 
BreadthFirstPaths, 540 
BST, 398,399, 407, 409, 411 
BTreeSET, 872 

Cat, 82 

CC, 544 
CollisionSystem, 863-864 
Count, 699 

Counter, 89 

CPM, 665 

Cycle, 547 

Date, 91, 103, 247 

DeDup, 490 
DegreesOfSeparation, 555 
DepthFirstOrder, 580 
DepthFirstPaths, 536 
DepthFirstSearch, 531 
Digraph, 569 
DijkstraAllPairsSP, 656 
DijkstraSP, 655 
DirectedCycle, 577 
DirectedDFS, 571 
DirectedEdge, 642 
DoublingTest, 177 

Edge, 610 
EdgeweightedDigraph，643 
EdgeWeightedGraph, 611 
Evaluate, 129 

Event, 861 

Example, 245 

FileIndex, 501 
FixedCapacityStack, 135 
FixedCapacityStackOfStrings, 133 
Flips, 70 

FlipsMax, 71 

FlowEdge, 896 
FordFulkerson, 898 
FrequencyCounter, 372 
Genome, 819-820 

Graph, 526 

GREP, 804 

Heap, 324 

HexDump, 814 

Huffman, 836 

Insertion, 251 

KMP, 768 

KosarajuSCC, 587 
KruskalMST, 627 

KWwIC, 881 
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LazyPrimMST，619 
LinearProbingHashST, 470 
LookupCSV, 495 
LookupIndex, 499 

LRS, 880 

LSD, 707 

LZW, 842, 844 

MaxPQ, 318 

Merge，271, 273 
MergeBU，278 

MSD，712 

Multiway, 322 

NFA, 799, 802 
PictureDump, 814 
PrimMST, 622 

Queue, 151 

Quick, 289, 291 
Quick3string, 720 
Quick3way, 299 
RabinKarp, 777 
RedBlackBST, 439 
ResizingArrayQueue, 140 
ResizingArrayStack, 141 
Reverse, 127 

RLE, 824 

Rolls, 72 

Selection, 249 


SeparateChainingHashST, 465 


SequentialSearchST, 375 
SET, 489 

Shell, 259 
SortCompare, 256 
SparseVector, 503 
Stack, 149 
StaticSETofInts, 99 
Stats, 125 
Stopwatch, 175 
SuffixArray, 883 
SymbolGraph, 552 
ThreeSum, 173 
ThreeSumFast, 190 
TopM, 311 
Topological, 581 
Transaction, 340 
TransitiveClosure, 593 
TrieST，737-741 
TST, 747 

TwoColor, 547 
TwoSumFast, 189 


UF, 221 
VisualAccumulator, 95 
WeightedQuickUnionUF, 228 
WhiteFilter, 491 
whitelist, 99 


Properties ( 性质) ，180 


3-sum, 180 

Boyer-Moore algorithm ( Boyer-Moore 算法 ) ，773 
insertion sort (插入 排序 ) ，255 

quicksort ( 快速 排序 ) ，343 

Rabin-Karp algorithm ( Rabin-Kar 算法 ) ，778 
red-black BST ( 红 黑 二 又 查找 树 ) ，445 

selection sort (选择 排序 ) ，255 

separate-chaining ( 拉链 法 ) ，467 

shellsort ( 硕 尔 排序 ) ，262 

versus proposition ( 性 质 与 命题 ) ，183 


Propositions ( 命题 ) ，182 


2-3 search tree (2-3 树 ) ，429 

3-sum, 182 

3-way quicksort ( 三 向 快速 排序 ) ，301 
3-way string quicksort ( 3- 向 字符 串 快 速 排序 ) ，723 
arbitrage ( 套 汇 ) ，681 

B-tree (B- 树 ) ，871 

Bellman-Ford, 671, 673 

binary heap (二 叉 堆 ) ，319 

binary search ( 二 分 查找 ) ，383 

BST (二 又 查 找 树 ) ，403-404, 412 

breadth-first search ( 广度 优先 搜索 ) ，541 

brute substring search ( 暴力 子 字符 串 查 找 ) ，761 
complete binary tree ( 完全 二 又 查找 树 ) ，314 
connected components ( 连通 分 量 ) ，546 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
critical path method ( 关键 路 径 法 ) ，666 

cut property(〈 切 分 定理 ) ，606 

DFS ( 深度 优先 搜索 ) ，531, 537, 570 

Dijkstra’s algorithm ( Dijkstra 算法 ) ，652, 654 
flow conservation ( 流量 守恒 ) ，893 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，900-901 
generic shortest-paths ( 通用 最 短路 径 ) ，651 
greedy MST algorithm ( 贪心 最 小 生成 树 算法 ) ，607 
heapsort ( 堆 排 序 ) ，323, 326 

Huffman algorithm ( 霍 夫 曼 算 法 ) ，833 

index priority queue ( 索引 优先 队列 ) ，321 
insertion sort ( 插入 排序 ) ，250, 252 

integer programming ( 整数 规划 ) ，917 
key-indexed counting ( 键 索引 计数 法 ) ，705 
Knuth-Morris-Pratt，769 

Kosaraju’s algorithm ( Kosaraju 算法 ) ，588, 590 
Kruskal’s algorithm ( Kruskal 算法 ) ，624, 625 


linear-probing hash table (线性 探测 散 列 表 ) ，475 
linear programming ( 线性 规划 ) ，908 
longest paths in DAG (有 向 无 环 图 中 的 最 长 路 径 ) ，661 
longest repeated substring ( 最 长 重复 子 字符 串 ) ，885 
LSD string sort ( 低位 优先 的 字符 串 排 序 ) ，706, 709 
maxflow-mincut theorem ( 最 大 流 - 最 小 切 分 定理 ) ， 
894 
maxflow reductions ( 最 大 流 归 约 ) ，906 
mergesort ( 合并 排序 ) ，272, 279, 282 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，717, 718 
negative cycles ( 负 权 重 环 ) ，669 
parallel job scheduling with relative deadlines ( 相对 最 后 
期 限 限制 下 的 并 行 任务 调度 问题 ) ，667 
particle collision( 粒子 的 相互 碰撞 ) ，865 
Prim’s algorithm ( Prim 算法 ) ，616, 618, 623 
quick-find algorithm ( quick-find 算法 ) ，223 
quicksort ( 快速 排序 ) ，293-295 
quick-union algorithm ( quick-union 算法 ) ，226 
red-black BST ( 红 黑 二 又 查找 树 ) ，444, 447 
regular expression ( 正则 表达 式 ) ，799, 804 
R-way trie (了 R- 向 单词 查找 树 ) ，742, 743, 744 
selection sort ( 选择 排序 ) ，248 
separate-chaining ( 拉链 法 ) ，466, 475 
sequential search ( 顺序 查找 ) ，376 
shortest paths in DAG (有 问 无 环 图 中 的 最 短路 径 ) ， 
658 
shortest-paths optimality ( 最 短路 径 最 优 性 条 件 ) ，650 
shortest paths reductions ( 最 短路 径 归 约 ) ，905 
sorting lower bound ( 排序 下 界 ) ，280, 300 
sorting reductions ( 排序 问题 ) ，903 
suffix array ( 后 级 数组 ) ，882 
ternary search trie ( 三 向 单词 查找 树 ) ，749, 751 
topological order ( 拓扑 排序 ) ，578, 582 
universal compression ( 通用 压缩 ) ，816 
weighted quick-union ( 加 权 quick-union 算法 ) ，229 
protected modifier ( protected 修饰 符 ) ，110 
Protein folding ( 借 白 质 折 车 ) ，920 
public access modifier ( public 访问 修饰 符 ) ，110 
Pushdown stack ( 下 压 栈 ) ，127 
See also Stack data type ( 另 见 Stack data type ) 
Push operation( 入 栈 操作 ) ，127 


Q 


Quadratic running time ( 平方 级 别 的 运行 时 间 ) ，186 
Quantum computer ( 量子 计算 机 ) ，911 
Queue data type (Queue 数据 类 型 ) 

analysis of ( 分析 ) ，198 


API, 126 

circular linked list ( 环形 链表 ) ，165 

linked-list ( 链表 ) ，150-151 

resizing-array( 可 调整 大 小 的 数组 ) ，140 
Quick-find algorithm ( Quick-find 算法 ) ，222-223 
Quicksort ( 快速 排序 ) ，288-307 

2-way partitioning ( 二 向 切 分 ) ，290 

3-way partitioning ( 三 向 切 分 ) ，298-301 

3-way string ( 三 向 字符 串 ) ，719 

analysis of ( 分 析 ) ，293-295 

and binary search trees ( 与 二 义 查 找 树 ) ，403 


duplicate keys ( 重复 元 素 ) ，292 
median-of-3 (三 取样 切 分 ) ，296, 305 
median-of-5 (五 取样 切 分 ) ，305 
nonrecursive ( 非 递 归 ) ，306 
random shuffe ( 随机 打 乱 ) ，292 

Quick-union ( Quick-union 算法 ) ，224-227 
path compression (路径 压 缩 Quick-union 算法 ) ，231 
weighted ( 加 权 Quick-union 算法 ) ，227-230 


R 


Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774-778 
Rabin, M. O., 759 

Radius of a graph ( 图 的 半径 ) ，559 

Radix ( 基数 ) ，700 


二 629 


Radix sorting. See String sorting ( 基数 排序 法 ， 见 String 


sorting ) 
Random bag data type ( 随机 背包 数据 类 型 ) ，167 
Randomized algorithm ( 随机 化 算法 ) ，198 

Las Vegas ( 拉 斯 维 加 斯 ) ，778 

Monte Carlo ( 蒙特 卡 洛 ) ，776 

quicksort ( 快速 排序 ) ，290, 307 

Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，776 

3-way string quicksort ( 三 向 字符 串 快 速 排序 ) ，722 
Random number ( 随机 数 ) ，30-32 
Random queue data type ( 随机 队列 数据 类 型 ) ，168 
Random string model ( 随机 字符 串 模型 ) ，716-717 
Range query (范围 查找 ) 

binary search tree ( 二 又 查找 树 ) ，412 

ordered symbol table ( 有 序 符号 表 ) ，368 
Rank (排名 ) 

binary search ( 二 分 查找 ) ，25, 378-381 

binary search tree ( 二 叉 查 找 树 ) ，408, 415 

ordered symbol table ( 有 序 符号 表 ) ，367 

suffix array ( 后 级 数组 ) ，879 
Reachability ( 可 达 性 ) ，570-572, 590 
Reachable vertex ( 可 达 顶 点 ) ，567 
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态 自 动机 ) ，794-799 

or operation (或 操作 ) ，789 

parentheses ( 括号 ) ，789 

\\st, 82 

shortcuts ( 缩 略 写法 ) ，791 

simulating an NFA ( NFA 的 模拟 ) ，797-799 
Rehashing ( 重新 散 列 ) ，474 
Relation ( 关系 ) 

antisymmetric ( 反对 称 性 ) ，247 

equivalence ( 等 价 性 ) ，102, 216, 584 

reflexive ( 自 反 性 ) ，102, 216, 247, 584 

symmetric ( 对 称 性 ) ，102, 216, 584 

total order ( 全 序 关 系 ) ，247 

transitive( 传递 性 ) ，102, 216, 247, 584 
Residual network ( 剩余 网 络 ) ，895-897 
Resizing array ( 可 调整 大 小 的 数组 ) ，136-137 

binary heap ( 二 叉 堆 ) ，320 

hash table ( 散 列表 ) ，474-475 

queue (队列 ) ，140 

stack( 栈 ) ，136 
Return value (返回 值 ) ，22 
Reverse ( 反 向 ， 逆 回 ) 

a linked list (将 链表 反 转 ) ，165-166 

an array ( 颠倒 数组 元 素 的 顺序 ) ，21 

array iterator ( 数组 反 向 迭代 器 ) ，139 

with a stack ( 将 栈 中 的 元 素 逆序 排列 ) ，127 
Reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Reverse graph ( 反 转 图 ) ，586 
Reverse postorder ( 道 后 序 ) ，578 
Reverse postorder traversal ( 道 后 序 遍历 ) ，578 
Ring buffer data type ( 环形 缓冲 区 数据 类 型 ) ，169 
RLE. See Run-length encoding 
Robson, J., 412 
Rooted tree (一 棵 树 ) ，640 
RotationinaBST (BST 中 的 旋转 操作 ) ，433-434, 452 
Run-length encoding ( 游程 编码 ) ，822-825 
Running time ( 运行 时 间 ) ，172-173 

analysis of ( 分 析 运 行 时 间 ) ，176 

constant ( 常数 级 别 的 运行 时 间 ) ，186 

cubic (立方 级 别 的 运行 时 间 ) ，186 

doubling ratio( 倍率 ) ，192 

exponential ( 指数 级 别 的 运行 时 间 ) ，186 


Recurrence relation 
binary search ( 二 分 查找 ) ，383 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，293 
Recursion ( 递归 ) ，25 
See also Base case ( 男 见 Base case ) ; 


See also Recursion ( 另 见 Recursion ) 
binary search ( 二 分 查找 ) ，25, 380 
binary search tree, 401 
depth-first search ( 深度 优先 搜索 ) ，531 
Euclid’s algorithm ( 欧 几 里 德 算法 ) ，4 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，289 
Red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
and 2-3 search tree ( 与 2-3 查找 树 ) ，432 
analysis of ( 分 析 红 黑 BST ) ，444-447 
color flip 〈 颜色 转换 ) ，436 
color representation ( 颜色 表示 ) ，433 
defined (定义 ) ，432 
delete the maximum ( 删除 最 大 元 素 ) ，454 
delete the minimum ( 删除 最 小 元 素 ) ，453 
deletion ( 删除 元 素 ) ，441-443, 455 
implementation ( 实现 ) ，439 
insertion (插入 ) ，437-439 
left-leaning ( 左 链接 ) ，432 
perfect black balance(〈 完美 黑色 平衡 ) ，432 
rotation ( 旋转 ) ，433-434 
search ( 查找 ) ，432 
Redirection ( 重 定 向 ) ，40 
Reduction ( 问题 归 约 ) ，903-909 
defined (定义 ) ，903 
polynomial-time ( 多 项 式 时 间 ) ，916 
linear programming ( 线性 规划 ) ，907-909 
maxflow ( 最 大 流量 ) ，905-907 
priority queue ( 优先 队列 ) ，345 
shortest-paths ( 最 短路 径 ) ，904-905 
sorting (排序) ，344-347, 903-904 
Reference (引用 ) ，67 
Reference type (引用 类 型 ) ，64 
Reflexive relation ( 自 反 关系 ) ，102, 216, 247, 584 
Regular expression ( 正则 表达 式 ) ，82, 788 


building an NFA (构造 NFA ) ，800-804 
closure operation ( 闭 包 操作 ) ，789 
concatenation operation ( 连接 操作 ) ，789 
defined (定义 )，790 

epsilon-transition ( €- 转换 ) ，795 

match transition( 匹配 转换 ) ，795 


nondeterministic finite-state automaton ( 非 确定 有 限 状 


inner loop ( 内 循环 ) ， 


180 


linear (线性 级 别 的 运行 时 间 ) ，186 


logarithmic ( 对 数 级 别 和 
measuring (测量 准确 的 
order of growth ( 运行 时 


的 运行 时 间 ) ，186 
运行 时 间 ) ，174 
| 间 的 增长 数量 级 ) ，179 
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quadratic (平方 级 别 的 运行 时 间 ) ，186 


tilde approximation ( 近 


以 ) ，178-179 


Run-time error See Error; See also Exception ( 运行 时 间 错 
误 ， 见 Error， 另 见 Exception ) 

R-way trie (人 向 单词 查找 树 ) ，730-744 
Alphabet ( 字母 表 ) ，741 
analysis of (分 析 ) ，742-743 
collecting keys ( 查找 所 有 键 ) ，738 
deletion( 删除 ) ，740 
insertion (插入 ) ，734 
longest prefix ( 最 长 前 级 ) ，739 
memory usage of ( 内 存 使 用 空间 ) ，744 
one-way branching ( 单 向 分 支 ) ，744-745， 
representation ( 表示 ) ，734 
search (查找 ) ，732-733 
wildcard match ( 通配符 匹配 ) ，739 
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Safe pointer ( 安全 指针 ) ，112 

Sample mean ( 采样 期 望 值 ) ，30 

Samplesort ( 取样 排序 ) ，306 

Sample standard deviation ( 采样 标准 差 ) ，30 

Sample variance ( 采样 ) ，30 

Scheduling ( 调度 ) 
critical-path method ( 关键 路 径 法 ) ，664-666 
load-balancing problem ( 负载 均衡 问题 ) ，349 
LPT first ( 最 大 优先 ) ，349 
parallel precedence-constrained ( 优先 级 限制 下 的 并 

行 ) ，663-667 

precedence constraint ( 优先 级 限制 ) ，574-575 
relative deadlines( 相对 最 后 期 限 ) ，666 
SPT first ( 最 小 优先 ) ，349 

Scientific method ( 科学 方法 ) ，172 

Scope of a variable ( 变量 作用 域 ) ，14, 87 

Search hit ( 查找 命中 ) ，376 

Searching ( 查找 ) ，360-$13. See also Symbol table ( 另 
见 Symbol table ) 

Search miss ( 查找 未 命中 ) ，376 

Search problem ( 搜索 问题 ) ，912 

Sedgewick, R., 298 

Selection ( 选择) ，345 
binary search tree ( 二 叉 查 找 树 ) ，406 
ordered symbol table ( 有 序 符号 表 ) ，367 
suffix array ( 后 级 数组 ) ，879 

Selection client ( 选择 用 例 ) ，249 

Selection sort ( 选择 排序 ) ，248-249 

Self-loop ( 自 环 ) ，518, 566, 612, 640 

Separate-chaining ( 拉链 法 ) ，464-468 

Sequential allocation ( 顺序 存储 ) ，156 


Sequential search ( 顺序 查找 ) ，374-377 
Set data type ( Set 数据 类 型 ) ，489-491 
Shannon entropy ( 香农 信息 量 ) ，300-301 
Shellsort ( 希 尔 排序 ) ，258-262 
Shortest ancestral path ( 最 短 先 导 路 径 ) ，598 
Shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Shortest path ( 最 短路 径 ) ，638 
Shortest paths problem ( 最 短路 径 问题 ) ，638-693 
all-pairs ( 顶点 对 ) ，656 
arbitrage detection ( 套 汇 检测 ) ，679-681 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-678 
bitonic〈 双 调 ) ，689 
bottleneck ( 瓶颈 ) ，690 
certiftication ( 验证 ) ，651 
critical edge ( 关键 边 ) ，690 
Dijkstra’s algorithm ( Dijkstra 算法 ) ，652-657 
edge relaxation ( 边 放 松 ) ，646-647 
edge-weighted DAG ( 加 权 有 向 无 环 图 ) ，658-667 
generic algorithm ( 通用 算法 ) ，651 
ineligible edge ( 无 效 边 ) ，646 
in Euclidean graphs (在 欧 几 里 得 图 中 ) ，656 
monotonic ( 单调 ) ，689 
negative cycle ( 负 权重 环 ) ，669 
Negative cycle detection ( 负 权 重 环 检测 ) ，670 
negative weights ( 负 权 重 ) ，668-681 
optimality conditions ( 最 优 条 件 ) ，650 
parent-link ( 父 结 点 的 链接 ) ，640 
reduction (问题 归 约 ) ，904-905 
shortest-paths tree ( 最 短路 径 树 ) ，640 
single-source ( 单 点 ) ，639, 654 
source-sink( 给 定 两 点 ) ，656 
undirected graph ( 无 向 图 ) ，654 
vertex relaxation ( 顶点 放松 ) ，648 
Shortest-processing-time-first rule( 最 小 优先 法 则 ) ， 
349, 355 
short primitive data type ( short 原始 数据 类 型 ) ，13 
Shuffling ( 打 乱 ) 
a linked list ( 打 乱 链表 ) ，286 
an array ( 打 乱 数组 ) ，32 
quicksort ( 打 乱 快速 排序 结果 ) ，292 
Side effect ( 副作用 ) ，22, 108 
Signature ( 签名 ) 
instance method ( 实例 方法 签名 ) ，86 
static method ( 静态 方法 签名 ) ，22 
Simple digraph ( 简单 有 向 图 ) ，567 
Simple graph ( 简单 图 ) ，518 
Simplex algorithm ( 单纯 形 法 ) ，909 
Single-source problems ( 单 点 问题 ) 
connectivity ( 连通 性 ) ，556 
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directed paths ( 有 向 路 径 ) ，573 
longest paths in DAG ( 有 疝 无 环 图 中 的 最 长 路 径 ) ， 


See also Shortest-processing-time-first rule ( 最 短路 
径 树 ， 见 Shortest paths tree， 另 见 Shortest- 


661 
paths ( 路 径 ) ，534 
reachability ( 可 达 性 ) ，570 
shortest directed paths ( 最 短 有 向 路 径 ) ，573 


shortest paths in undirected graphs ( 无 向 图 中 的 最 短路 


径 ) ，654, 904 
shortest paths ( 最 短路 径 ) ，538, 639 
Social network( 社交 网 络 ) ，517 
Software cache ( 缓存 ) ，391, 451, 462 
Sollin, M., 628 
Sorting ( 排序) ，242-359 
See also String sorting ( 男 见 字符 串 排 序 ) 
3-way quicksort ( 三 向 快速 排序 ) ，298-301 
binary search tree ( 二 叉 查 找 树 ) ，412 
certification ( 认证) ，246, 265 
Comparable, 246-247 
compare-based ( 基于 比较 的 排序 算法 ) ，279 
complexity of ( 排序 复杂 性 ) ，279-282 
cost model ( 排序 的 成 本 模型 ) ，246 


entropy-optimal ( 平均 信息 量 最 优 的 排序 ) ，296-301 


extra memory ( 额外 的 内 存 使 用 ) ，246 
heapsort ( 堆 排 序 ) ，323-327 

indirect ( 间接 排序 ) ，286 

in-place ( 原 地 排序 ) ，246 

insertion sort (插入 排序 ) ，250-252 
inversion ( 反 向 排序 ) ，252 

lower bound (下 界 ) ，279-282, 306 
mergesort ( 合并 排序 ) ，270-288 
partially-sorted array ( 部 分 有 序 的 数组 ) ，252 
pointer ( 指针 ) ，338 

primitive types( 原始 数据 类 型 ) ，343 
quicksort ( 快速 排序 ) ，288-307 
reduction( 归 约 问题 ) ，903-904 
reductions ( 归 约 ) ，344-347 

selection sort ( 选择 排序 ) ，248-250 
shellsort ( 希 尔 排 序 ) ，258-262 
stability (稳定 性 ) ，341 

suffix array ( 后 级 数组 ) ，875-885 
system sort ( 系统 排序 ) ，343 


Source-sink shortest paths ( 给 定 两 点 的 最 短路 径 ) ，656 


Spanning forest ( 生成 森林 ) ，520 
Spanning tree ( 生成 树 ) ，520, 604 
Sparse graph ( 稀 斑 图 ) ，520 

Sparse matrix ( 稀 玻 矩阵 ) ，510 

Sparse vector ( 稀 玻 向 量 ) ，502-505 
Specification problem ( 说 明 书 问题 ) ，97 
SPT. See Shortest paths tree; 


processing-time-first rule ) 
st-cut (st- 切 分 ) ，892 
st-low ( st- 流量 配置 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
Stability ( 稳定 性 ) ，341, 355 
insertion sort (插入 排序 ) ，341 
key-indexed counting ( 键 索引 计数 法 ) ，705 
LSD string sort ( 低位 优先 的 字符 串 排 序 ) ，706 
mergesort ( 合并 排序 ) ，341 
priority queue ( 优先 队列 ) ，356 
Stack data type ( 栈 数据 类 型 ) ，127 
analysis of ( 分 析 栈 ) ，198, 199 


array implementation ( 实现 保存 在 栈 中 的 数组 ) ，132 


fixed-capacity ( 定 容 栈 ) ，132-133 
generic ( 泛 型 ) ，134 
iteration (迭代) ，138-140 
linked-list ( 链表 ) ，147-149 
resizing array ( 可 调整 大 小 的 数组 ) ，136 
Standard deviation ( 标准 差 ) ，30 
Standard drawing ( 标准 图 像 ) ，36, 42-45 
Standard input ( 标准 输入 ) ，36, 39 
Standard libraries ( 标准 库 ) ，30 
Draw，82-83 
In，41, 82—83 
Out, 41, 82—83 
StdDraw，43 
StdIn，39 
StdOut，37 
StdRandom，30 
StdStats，30 
Stopwatch, 174-175 
Standard output ( 标准 输出 ) ，36, 37-38 
Static method ( 静态 方法 ) ，22-25 
argument ( 参数 ) ，22 
defining a ( 定义 静态 方法 ) ，22 
invoking a ( 调用 静态 方法 ) ，22 
overloaded ( 重 载 静 态 方法 ) ，24 
pass by value ( 按 值 传递 ) ，24 
recursive ( 递归 ) ，25 
return statement (返回 语句 ) ，24 
return value ( 返回 值 ) ，22 
side effect ( 副作用 ) ，22, 24 
signature ( 签名 ) ，22 
Static variable ( 静态 变量 ) ，113 
Statistics ( 统计 学 ) 
chi-square ( 卡 方 检验 ) ，483 
median ( 中 位 数 ) ，345 


minimum and maximum ( 最 小 值 和 最 大 值 ) ，30 
order ( 顺序 ) ，345 
sample mean (采样 期 望 值 ) ，30, 125 
sample standard deviation ( 采样 标准 差 ) ，30 
sample variance ( 采样 方差 ) ，30, 125 
StdDraw library, 43 
StdIn library, 39 
StdOut library, 37 
StdRandom library, 30 
StdStats library, 30 
Steque data type( Steque 数据 类 型 ) ，167, 212 
Stirling's approximation ( 斯 特 灵 公式 ) ，185 


Stopwatch data type ( Stopwatch 数据 类 型 ) ，174-175 


String data type ( 字符 串 数据 类 型 ) ，34, 80-81 
API，80 
characters (字符) ，696 
charAt() method ( charAtQ 方法 ) ，696 
concatenation (字符 串 的 连接 ) ，34, 697 
conversion ( 字符 串 类 型 转换 ) ，102 
immutability ( 不 可 变性 ) ，696 
indexing ( 索引 ) ，696 
index0f() method (indexOf(0) 方法 ) ，779 
length ( 字符 串 长 度 ) ，696 
length() method ( length 0) 方法) ，696 
literal ( 字面 量 ) ，34 
memory usage of ( 内 存 使 用 ) ，202 
+operator (+ 运算 符 ) ，80, 697 
substring extraction ( 提取 子 字符 串 ) ，696 
substring() method ( substring() 方法 ) ，696 
String processing (字符 串 处 理 ) ，80-81, 694-851 
data compression ( 数据 压缩 ) ，810-851 
regular expression ( 正则 表达 式 ) ，788 
sorting ( 排序 ) ，702-729 
substring search ( 子 字符 串 查 找 ) ，758-785 
suffix array ( 后 级 数组 ) ，875-885 
tries ( 单词 查找 树 ) ，730-757 


String search. See Substring search; See also Trie (字符 上 


查找 ， 见 Substring search， 男 见 Trie ) 

String sorting ( 字符 串 排 序 ) ，702-729 
3-way quicksort ( 三 向 快速 排序 ) ，719-723 
key-indexed counting ( 键 索引 计数 法 ) ，703 


LSD string sort ( 低位 优先 的 字符 串 排 序 ) ，706-709 
MSD string sort ( 高 位 优先 的 字符 串 排 序 ) ，710-718 


Strong component ( 强 连 通 分 量 ) ，584 
Strong connectivity ( 强 连通 性 ) ，584-591 


Strongly connected component. See Strong component ( 强 


连通 的 分 量 ， 见 Strong component ) 
Strongly connected relation ( 强 连通 的 关系 ) ，584 
Strongly typed language( 强 类 型 语言 ) ，14 


Subclass ( 子 类 ) ，101 
Subgraph ( 子 图 ) ，519 
Sublinear running time ( 次 线性 运行 时 间 ) ，716, 779 
Substring extraction ( 子 字符 串 提取 ) 
memory usage of ( 内 存 使 用 ) ，202-204 


substring() method ( substring() 方法 ) ，696 


Substring search ( 子 字 符 串 查找 ) ，758-785 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
brute-force ( 暴力 查找 ) ，760-761 
index0f() method ( indexOf(0) 方法 ) ，779 
Knuth-Morris-Pratt, 762—769 
Rabin-Karp, 774-778 

Subtyping( 子 类 型 ) ，100 

Suffix array ( 后 级 数组 ) ，875-885 

Suffix array data type( 后 级 数组 数据 类 型 ) ，879 

Suffix-free code (后缀 码 ) ，847 

Superclass ( 父 类 ) ，101 

Symbol digraph ( 符号 有 向 图 ) ，581 

Symbol graph ( 符号 图 ) ，548-555 

Symbol table ( 符号 表 ) ，360-513 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
API，363, 366 
associative array (〈 关联 数组 ) ，363 
balanced search tree ( 平衡 查找 树 ) ，424-457 
binary search ( 二 分 查找 ) ，378-384 
binary search tree (二 义 查 找 树 ) ，396-423 
B-tree ( B- 树 ) ，866-874 
cost model ( 成 本 模型 ) ，369 
defined ( 符号 表 的 定义 ) ，362 
duplicate key policy ( 重复 元 素 ) ，363 
floor and ceiling ( 向 下 取 整 和 向 上 取 整 ) ，367 
hash table ( 散 列表 ) ，458-485 
insertion (搬入 ) ，362 
key equality ( 等 值 键 ) ，365 
lazy deletion ( 延 时 删除 ) ，364 
linear-probing ( 线性 探测 ) ，469-474 


minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 


null value (null 值 ) ，364 

ordered ( 有 序 符号 表 ) ，366-369 

ordered array ( 有 序数 组 ) ，378 

range query ( 范围 查找 ) ，368 

rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
R-way trie( R 向 单词 查找 树 ) ，732-745 
search ( 查找 ) ，362 
separate-chaining ( 拉链 法 ) ，464-468 
sequential search ( 顺序 查找 ) ，374 

string keys (字符 串 键 ) ，730-757 

ternary search trie ( 三 向 单词 查找 树 ) ，746-751 
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trie ( 单词 查找 树 ) ，730-757 See Binary search tree ( 见 Binary search tree ) 
unordered linked list ( 无 序 链表 ) ，374 

Symmetric order ( 树 的 对 称 性 ) ，396 

Symmetric relation ( 对 称 关 系 ) ，102, 216, 584 


Szpankowski, W., 882 


balanced search tree. See Balanced search tree (平衡 查 
找 树 ， 见 Balanced search tree ) 

binomial ( 二 项 树 ) ，237 

depth of a node ( 树 中 的 节点 深度 ) ，226 

height of ( 树 的 高 度 ) ，226 

inorder traversal ( 中 序 遍 历 ) ，412 

T min spanning tree. See Minimum spanning tree ( 最 小 生 


成 树 ， 见 Minimum spanning tree ) 
parent-link ( 父 结 点 的 链接 ) ，535, 539 
preorder traversal ( 前 序 遍 历 ) ，834 
rooted( 根 结 点 ) ，640 
size( 树 的 大 小 ) ，226 
spanning tree.See Spanning tree ( 生成 树 ， 见 Spanning 


Tail vertex ( 顶点 的 尾 ) ，566 

Tale of Two Cities( 双城记) ，371 
Tandem repeat ( 串联 重复 查找 ) ，784 
Tarjan, R. E., 590, 628 


Terminal window ( 终端 窗口 ) ，10, 36 


Ternary search trie( 三 向 单词 查找 树 ) ，746-751 tree ) 
alphabet (字母 表 ) ，750 undirected graph ( 无 向 图 ) ，520 


analysis of ( 分 析 ) ，749 union-find ( union-find 算法 ) ，224-226 


collecting keys ( 查找 所 有 键 ) ，750 Tremaux exploration ( Tremaux 搜索 ) ，530 
deletion ( 删除 ) ，750 Triangular sum ( 等 差 数 列 之 和 ) ，185 


insertion ( 插入) ，746 Trie (单词 查找 树 ) ，730-757 


one-way branching ( 单 向 分 支 ) ，751, 755 

prefix match ( 匹配 前 级 ) ，750 

search ( 查找 ) ，746 

wildcard match ( 通配符 匹配 ) ，750 
Theseus( 己 修 斯 ) ，530 
this reference ( this 引用) ，87 
Threading ( 线性 符号 表 ) ，420 
Tilde notation ( 近似 ) ，178, 206 
Time-driven simulation ( 时 间 驱 动 模拟 ) ，856 
Timing a program ( 为 应 用 程序 计时 ) ，174-175 
Top-down 2-3-4tree ( 自 顶 向 下 的 2-3-4 树 ) ，441 
Top-down mergesort ( 自 顶 向 下 的 合并 排序 ) ，272 
Topological sort ( 拓扑 排序 ) ，574-583 

depth-first search ( 深度 优先 搜索 ) ，578 

queue-based algorithm ( 基于 队列 的 算法 ) ，599 
toString() method ( toString0) 方法 ) ，66, 102 
Total order ( 全 序 关 系 ) ，247 
Transaction data type(〈 事务 数据 类 型 ) ，78-79 

compare(), 340 

compareTo(), 266,337 

hashCode(), 462 
Transitive closure ( 传递 闭 包 ) ，592 
Transitive relation 〈 传递 关系 ) ，102, 216, 247, 584 
Transpose a matrix ( 转 置 矩 阵 ) ，56 
Tree ( 树 ) 

2-3 search tree ( 2-3 查找 树 ) 

See 2-3 search tree ( 见 2-3 search tree ) 


长 一 


binary. See Binary tree ( 二进制 ， 见 Binary tree ) 
binary search tree ( 二 叉 查 找 树 ) 


See also R-way trie; 
See also Ternary search trie ( 见 R-way trie， 男 见 
Ternary search trie ) 
collecting keys( 查找 所 有 键 ) ，731 
Lempel-Ziv-Welch, 840 
longest prefix match ( 匹配 最 长 前 级 ) ，731, 842 
one-way branching ( 单 向 分 支 ) ，744-745, 751, 755 
prefix-free code ( 前 缀 代码 ) ，827 
preorder traversal ( 前 序 遍 历 ) ，834 
reading and writing ( 读 和 写 ) ，834-835 
wildcard match ( 通配符 匹配 ) ，731 
Tufte plot ( Tufte 图 ) ，456 
Tukey ninther，306 
Turing, A., 910 
Turing machine ( 图 灵机 ) ，910 
Church-Turing thesis ( 丘 奇 - 图 灵 论 题 ) ，910 
computability ( 可 计算 性 ) ，910 
nondeterministic( 非 确 定性 的 ) ，914 
universality ( 普遍 性 ) ，910 
Type conversion ( 类 型 转换 ) ，13 
Type erasure ( 类 型 擦 除 ) ，158 
Type parameter ( 类 型 参数 ) ，122, 134 


二 | 


U 


Undecidability (不 可 判定 性 ) ，97, 817 
Undirected graph ( 无 向 图 ) 
acyclic (无 环 ) ，520 


adjacency-lists ( 邻接 表 ) ，524 
adjacency-matrix ( 邻接 矩阵 ) ，524 
adjacency-sets ( 邻接 集 ) ，527 
adjacent vertex ( 邻接 顶点 ) ，519 
articulation point ( 关节 点 ) ，562 
biconnected ( 双向 连通 的 ) ，562 
bipartite ( 二 分 的 ) ，521, 546-547, 562 
breadth-first search ( 广度 优先 搜索 ) ，538-542 
bridge ( 桥 ) ，562 
center ( 中 点 ) ，559 
connected (连通 的 ) ，519 
connected component ( 连通 分 量 ) ，519 
connected to relation ( 连通 关系 ) ，519 
connectivity ( 连通 性 ) ，534, 543-546 
cycle ( 环 ) ，519 
cycle detection ( 环 检测 ) ，546-547 
defined (定义 ) ，518 
degree ( 度 )，519 
dense ( 稠密 ) ，520 
depth-first search ( 深度 优先 搜索 ) ，530-533 
diameter ( 直径 ) ，559 
edge ( 边 ) ，518 
edge-connected ( 边 连 通 的 ) ，562 
edge-weighted (加 权 ) 

See Edge-weighted graph ( 见 Edge-weighted graph ) 
Eulertour ( 欧 拉 回路 ) ，562 
forest ( 森林 ) ，520 
girth ( 周 长 ) ，559 
Hamilton tour (汉密尔顿 回路 ) ，562 
interval graph( 区 间 图 ) ，564 
isomorphism ( 同 构 ) ，561 
mnultigraph ( 多 重 图 ) ，518 
odd cycle detection ( 长度 为 奇数 的 环 检测 ) ，562 
parallel edge (平行 边 ) ，518 
path ( 路径 ) ，519 
radius ( 半径 ) ，559 
self-loop〈 自 环 ) ，518 
simple ( 简单 ) ，518 
simple cycle ( 简单 环 ) ，519, 567 
simple path ( 简单 路 径 ) ，519 
single-source connectivity ( 单 点 连通 性 ) ，556 
single-source paths ( 单 点 路 径 ) ，534 
single-source shortest paths (〈 单 点 最 短路 径 ) ，538 
spanning forest ( 生成 森林 ) ，520 
spanning tree (生成 树 ) ，520 
sparse ( 稀 琉 ) ，520 
subgraph ( 子 图 ),，519 
tree ( 树 ) ，520 
two-colorability ( 两 种 颜色 着 色 ) ，546-547, 562 


vertex ( 顶点) ，518 
weighted (权重 ) 
See Edge-weighted graph ( WW Edge-weighted graph ) 
Unicode ( Unicode 编码 ) ，696 
Uniform hashing ( 均匀 散 列 ) ，463 
Union-fnd ( union-fnd 算法 ) ，216-241 
depth-first search ( 深度 优先 搜索 ) ，546 
binomial tree (二叉树 ) ，237 
Boruvka's algorithm ( Boruvka 算法 ) ，636 
dynamic connectivity ( 动态 连通 性 ) ，216 
forest-of-trees ( 森林 ) ，225 
Kruskal's algorithm ( Kruskal 算法 ) ，625 
parent-link ( 父 链接 ) ，225 
path compression ( 路 径 压缩 ) ，231, 237 
quick-find ( quick-find 算法 ) ，222-223 
quick-union ( quick-union 算法 ) ，224-227 
weighted quick-find ( 加 权 quick-find 算法 ) ，236 
weighted quick-union ( 加 权 quick-union 算法 ) ，227-231 
weighted quick-union by height ( 根据 高 度 加 权 的 
quick-union 算法 ) ，237 
weighted quick-union with path compression ( 使 用 路 径 
压缩 的 加 权 quick-union 算法 ) ，237 
Uniquely decodable code ( 解码 方式 唯一 的 编码 ) ，826 
Unittesting (单元 测试 ) ，26 
Universal data compression ( 通用 数据 压缩 ) ，816 
Universality (通用 性 ) ，910 
Upperbound ( 上 界 ) ，206, 207, 281 


mm 


V 


Value type parameter ( 值 类 型 参数 ) 
symbol table ( 符号 表 ) ，361 
trie (单词 查找 树 ) ，730 
Variable ( 变量) ，10 
Variable-length code ( 变 长 编码 ) ，826 
Variance ( 共 变 ) ，30 
Vector data type ( 向 量 数据 类 型 ) ，106 
Vertex (顶点 ) 
adjacent ( 邻接 ) ，519 
connected to relation ( 连通 关系 ) ，519 
degree of ( 度 ) ，519 
eccentricity ( 离心 率 ) ，559 
head and tail ( 头 和 尾 ) ，566 
indegree and outdegree ( 入 度 和 出 度 ) ，566 
reachable ( 可 达 ) ，567 
source (点 ) ，528 
Vertex cover problem ( 顶点 覆盖 问题 ) ，920 
Vertex relaxation ( 顶点 放松 ) ，648 
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Virtual terminal ( 虚拟 终端 ) ，10 
Vyssotsky’s algorithm ( Vyssotsky 算法 ) ，633 


W 


Web search ( 网 络 搜索 ) ，496 
Weighted digraph. 
See Edge-weighted digraph ( 加 权 有 向 图 ， 见 Edge- 
weighted digraph ) 
Weighted edge ( 加 权 边 ) ，604, 638 
Weighted external path length( 加 权 外 部 路 径 长 度 ) ，832 
Weighted graph. See Edge-weighted graph ( 加 权 图 ， 见 
Edge-weighted graph ) 
Weighted quick-union (加权 quick-union 算法 ) ，227-231 
Weighted quick-union with path compression ( 使 用 路 径 压 
缩 的 加 权 quick-union 算法 ) ，237 


Weiner, P., 884 

Welch, T., 839 

while loop (while 循 环 ) ，15 

Whitelist filter ( 白 名 单 过 滤器 ) ，8, 48-49, 99, 491 
Wide interface ( 宽 接 口 ) ，160, 557 

Wildcard character ( 通配符 ) ，791 

Wildcard match ( 通配符 匹配 ) ，750 

Worst-case guarantee ( 对 最 坏 情 况 下 的 性 能 保证 ) ，197 
Wrapper type ( 封装 类 型 ) ，102, 122 


Z 


Ziv, J., 839 
Zero-based indexing ( 起 始 索引 是 0 ) ，53 
Zipfs law (Zipf 法 则 ) ，393 
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计算 机 程序 设计 艺术 
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卷 4A: 组 合算 法 ( 一 ) (英文 版 ) 


计算 机 体系 结构 : 


量化 研究 方法 ( 第 5 版 ) 


具体 数学 : 
计算 机 科学 基础 ( 第 2 版 ) 


编译 器 设计 ( 第 2 版 ) 


法 Algorithms Fourth Edition 
(第 4 版 ) 


本 书 全 面 讲 述 算法 和 数据 结构 的 必 备 知识 ， 具 有 以 下 几 大 特色 。 


令 算法 领域 的 经 典 参考 书 
Sedgewick 畅 销 著 作 的 最 新 版 ， 反 映 了 经 过 几 十 年 演化 而 成 的 算法 核心 知识 体系 
人 内 容 全 面 
全 面 论述 排序 、 搜 索 、 图 处 理 和 字符 串 处 理 的 算法 和 数据 结构 ， 洒 盖 每 位 程序 员 应 知 应 会 的 50 种 算法 
令 全 新 修订 的 代码 
全 新 的 Java 实 现代 码 ， 采 用 模块 化 的 编程 风格 ， 所 有 代码 均 可 供 读 者 使 用 
依 与 实际 应 用 相 结 合 
在 重要 的 科学 、 工 程 和 商业 应 用 环境 下 探讨 算法 ， 给 出 了 算法 的 实际 代码 ， 而 非 同类 著作 常用 的 伪 代 码 
$ 富 于 智力 趣味 性 
简明 扼要 的 内 容 ， 用 丰富 的 视觉 元 素 展示 的 示例 ， 精 心 设计 的 代码 ， 详 尽 的 历史 和 科学 背景 知识 ， 各 种 难度 的 练习 ， 这 一 
切 都 将 使 读者 手 不 释 卷 
多 ps 
合适 的 数学 模型 精确 地 讨论 算法 性 能 ， 这 些 模型 是 在 真实 环境 中 得 到 验证 的 
4 eR 
配套 网 站 algs4.cs.princeton.edu 提 供 了 本 书 内 容 的 摘要 及 相关 的 代码 、 测 斌 数据、 编程 练 习 、 教 学 课件 等 资源 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 
会 有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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